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作为 人 工 智能 技术 的 重要 组 成 部 分 , 语音 识别 旨 在 研究 计算 机 如 何 听 懂 人 的 讲话 。 
来 源 于 人 工 神经 网 络 的 深度 学 习 促 进 了 语音 识别 技术 的 发 展 。 本 书 从 使 用 开源 的 语音 
识别 构建 系统 Kaldi 开始 讲 起 ， 引 导读 者 亲自 实现 语音 识别 系统 ， 使 用 了 C#、Perl、 
Python、Java 等 多 种 编程 工具 。 第 1 章 介 绍 语音 识别 的 基本 原理 和 Kaldi 的 基本 使 用 方 
法 ,以 及 使 用 Kaldi 开发 语音 识别 系统 应 用 到 的 Linux shell 脚本 基础 ; 第 2 章 介 绍 使 用 
C# 开 发 语音 识别 系统 ， 第 3 章 介 绍 Perl 语言 开发 基础 ;第 4 章 介 绍 开发 语音 识别 系统 
所 需要 的 Python 基础 ; 第 5 章 介 绍 使 用 Java 开发 语音 识别 系统 ; 第 6 章 介 绍 傅 里 叶 变 
换 、MFCC 特征 等 常用 的 语音 信号 处 理 方法 ; 第 7 章 介 绍 基 本 的 神经 网 络 和 深度 学 习 
方法 及 训练 神经 网 络 的 反 向 传播 方法 ; 第 8 章 介绍 语音 识别 解码 阶段 用 到 的 语言 模型 ， 
以 及 语言 模型 工具 包 一 一 KenLM。 

本 书 适合 需要 具体 实现 语音 识别 的 程序 员 使 用 ， 对 机 器 学 习 等 相关 领域 的 研究 人 
员 也 有 一 定 的 参考 价值 。 猎 免 搜 索 技术 团队 已 经 开发 出 以 本 书 为 基础 的 专门 培训 课程 
和 商业 软件 。 

本 书 由 柳 若 边 编著 ， 罗 刚 、 沙 芸 、 张 子 宪 、 许 想 娇 、 石 天 鼻 、 张 继 红 、 罗 庭 亮 、 
王 全 军 、 刘 宇 、 张 天 津 也 参与 了 本 书 的 部 分 编 创 工 作 。 本 书 相关 的 参考 软件 和 代码 在 
读者 QQ 群 (378025857) 的 附件 中 可 以 找到 。Kaldi 及 其 底层 依赖 的 软件 ， 其 复杂 程 
度 已 经 超越 了 一 个 人 所 能 掌握 的 程度 。 此 外 ， 一 些 具 体 的 细节 也 可 以 在 读者 QQ 群 讨 
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语音 识别 技术 ， 也 被 称 为 自动 语音 识别 (Automatic Speech Recognition，ASR ) ， 
它 是 一 门 交 叉 学 科 ， 与 人 们 的 生活 和 学 习 密 切 相 关 。 其 目标 是 将 说 话 者 的 词汇 内 容 转 
换 为 计算 机 可 读 的 输入 按键 、 二 进 制 编码 或 字符 序列 等 。 例 如 ， 打 银行 的 客服 电话 ， 
可 以 直接 和 银行 系统 对 话 ， 而 不 是 普通 的 “请 按 1” 等 把 人 当成 机 器 的 询问 。 在 通信 中 ， 
可 以 把 对 方 的 语音 留言 转换 成 文字 ， 还 可 以 根据 识别 出 的 文字 识别 语义 ， 这 样 可 以 让 
机 器 和 人 交流 。 再 如 ， 儿 童 识别 图 片 后 ， 可 以 说 出 这 个 图 中 是 老虎 还 是 大 象 ， 系 统 使 
用 语音 识别 技术 判断 孩子 回答 是 否 正确 ， 对 于 不 正确 的 ， 系 统 自动 给 出 提示 。 

做 好 开放 式 语音 识别 不 容易 ， 可 以 辅助 人 工 输入 字幕 ， 类 似 于 语音 输入 法 。 


1.1 总 体 结构 


语音 识别 可 以 看 成 是 广义 上 的 标注 问题 。 给 定 声学 输出 41t (由 一 个 声学 事件 的 
序列 组 成 a1.…,ar) ， 需 要 找到 单词 序列 Wi 的 最 大 化 概率 : 
argmax P(Wn |4r) 
根据 贝 叶 斯 公式 重 写 上 述 公 式 ， 并 删除 在 通过 比较 大 小 找 最 大 值 的 过 程 中 没有 意 
义 的 分 母 ， 把 问题 转换 成 计算 : 
argmax P(A |Win)P(Wn) 
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这 里 将 P(417 | 两 本 称 为 声学 模型 ， 而 将 P(WiR) 称 为 语言 模型 。 语 言 识别 结构 如 


1-1 所 示 。 


到 


语音 信号 识别 出 的 文本 


图 1-1 语音 识别 结构 


人 类 获得 信息 的 80% 都 来 自 图像 。 图 像 信息 具有 传递 速度 快 、 信 息 量 大 等 一 系 
列 特点 ， 因 此 图 像 信息 得 到 了 广泛 的 应 用 。 但 语音 识别 在 车 载 系统 、 智 能 音响 等 领域 


也 有 非常 关键 的 应 用 。 
为 了 能 开发 出 有 效 的 语音 识别 系统 ，2009 年 Kaldi 在 约翰 。 霍 普 金 斯 大 学 诞生 了 。 


Kaldi 不 是 一 款 语 音 识 别 系统 ， 而 是 一 款 建 立 语音 识别 系统 的 系统 。Kaldi 使 用 运行 于 
Linux 操作 系统 的 CH+、Perl、Python、Bash 等 多 种 语言 开发 。 接 下 来 介绍 需要 用 到 的 
Linux 基础 知识 。 


1.2 Linux 基础 


Linux 是 围绕 Linux 内 核 构建 的 免费 和 开源 软件 操作 系统 系列 。 通 常 ，Linux 以 桌 
面 和 服务 器 使 用 的 称 为 Linux 发 行 版 的 形式 打包 。Linux 有 一 些 常用 的 发 行 版 CentOS 
和 Ubuntu 等 版 本 。 
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和 CentOS 不 同 ，Ubuntu 操作 系统 上 没有 管理 员 知道 root 密码 (root 密码 是 随机 
生成 的 ) ， 而 root 权限 是 通过 操作 sudo 命令 授予 的 。 

有 些 语音 识别 系统 运行 在 Linux 服务 器 中 ， 为 了 远程 登录 Linux 服务 器 ， 用 户 可 
以 先 在 Windows 下 安装 Chrome 浏览 器 ， 然 后 可 以 通过 网 址 http://sshy.us/ 登 录 Linux 
服务 器 。 在 界面 中 输入 IP 地址、 用户 名 和 密码 ， 如 果 是 用 root 账户 登录 ， 则 终端 提示 
符 为 “#”; 否则 ， 终 端 提 示 符 为 “$”。 

查看 Ubuntu 操作 系统 版 本 号 : 


$cat /etc/issue 
Ubuntu 18.04 LTS \n \1l 


或 者 : 


$lsb release -rE 
Release: 18.04 


获取 Ubuntu 的 代号 : 


$1sb_release -c 


Codename: bionic 

ls 命令 用 于 列 出 当前 目录 下 的 文件 ，history 命令 用 于 显示 历史 。 有 的 命令 比较 长 ， 
为 了 实现 快速 输入 ， 可 以 用 Tab 键 补 全 命令 ; 也 可 以 用 上 箭头 选择 最 近 运 行 过 的 命令 
再 次 执行 。 

连接 到 远程 Linux 服务 器 可 以 使 用 支持 SSH 协议 的 终端 仿真 程序 SecureCRT。 因 
为 它 可 以 保存 登录 密码 ， 所 以 应 用 起 来 比较 方便 。 除 了 SecureCRT， 还 可 以 使 用 开源 软件 
PuTTY (http:/www.chiark.greenend.org.uk/~sgtatham/putty) ， 以 及 可 以 保存 登录 密码 
的 PuTTY Connection Manager。 在 终端 启动 的 进程 断 开 连接 后 会 停止 运行 。 为 了 让 进 
程 继续 运行 ， 可 以 使 用 nohup 命令 。 

如 果 需 要 安装 软件 ， 可 以 下 载 对 应 的 RPM 安装 包 ， 然 后 使 用 RPM 安装 。 但 操作 
系统 对 应 的 RPM 安装 包 找 起 来 往往 比较 麻烦 一 一 一 个 软件 包 可 能 依赖 其 他 的 软件 包 ; 为 
了 安装 一 个 软件 ， 可 能 需要 下 载 其 他 的 多 个 它 所 依赖 的 软件 包 。 

为 了 简化 安装 操作 步骤 , 可 以 使 用 黄 狗 升级 管理 器 (Yellow dog Updater Modified ) ， 
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一 般 简称 YUM。YUM 会 自动 计算 出 程序 之 间 的 相互 关联 性 ， 并 且 计 算出 完成 软件 包 
的 安装 需要 哪些 步骤。 这 样 在 安装 软件 时 ， 不 会 再 被 那些 关联 性 问题 所 困扰 。 

YUM 软件 包 管 理 器 会 自动 从 网 络 下 载 并 安装 软件 .YUM 有 点 类 似 360 软件 管家 ， 
但 是 不 会 有 商业 倾向 的 推销 软件 。 例 如 安装 支持 wget 和 lrzsz 命令 的 软件 ， 执 行 以 下 
命令 行 : 

#yum install wget 

#yum install lrzsz 


Windows 格式 文本 文件 的 换行 符 为 rn， 而 Linux 文件 的 换行 符 为 mn。dos2unix 命 
令 是 将 Windows 格式 文件 转换 为 Linux 格式 的 实用 命令 ， 其 实 就 是 将 文件 中 的 \rn 转 
换 为 n。 

开发 语音 识别 系统 的 过 程 中 ， 可 能 会 用 到 大 量 的 数据 文件 。 例 如 需要 在 Linux 操 
作 系 统 上 维护 同一 文件 的 两 份 或 多 份 副本 ， 除 了 保存 多 份 单独 的 物理 文件 副本 以 外 ， 还 
可 以 采用 保存 一 份 物理 文件 副本 和 多 个 虚拟 副本 的 方法 。 这 种 虚拟 的 副本 就 称 为 链接 。 
链接 是 目录 中 指向 文件 真实 位 置 的 占 位 符 。 在 Linux 中 有 两 种 不 同类 型 的 文件 链接 一 一 
符号 链接 和 硬 链接 。 其 中 ,符号 链接 是 一 个 实 实在 在 的 文件 ， 它 指向 存放 在 虚拟 目录 
结构 中 某 个 地 方 的 另 一 个 文件 。 这 两 个 通过 符号 链接 在 一 起 的 文件 , 彼此 的 内 容 并 不 
相同 。 

对 于 过 大 的 文件 ， 可 以 使 用 wget 命令 在 后 台 下 载 。 

#wget -bc <path> 


这 里 的 参数 b 表示 在 后 台 运 行 ， 参 数 c 表示 支持 断 点 续 传 。 


1.3 安装 Micro 编辑 器 


为 了 方便 在 服务 器 端 开 发 Python\Perl 的 相关 应 用 ， 可 以 采用 Micro (https://github.com/ 
zyedidia/micro) 这 样 的 终端 文本 编辑 器 。 如 果 有 Snap 安装 工具 软件 ， 可 以 使 用 Snap 
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安装 Micro: 
#snap install micro --classic 
如 果 没 有 Snap 安装 工具 软件 ， 也 可 以 直接 安装 Micro 的 预 编译 版 本 : 


#wget https://github.com/zyedidia/micro/releases/download/nightly/micro-1. 
3.4-67-linux64.tar.gz 
#tar -xf ./micro-1.3.4-67-linux64.tar.gz 


编辑 /etc/profile 文件 , 增加 micro 所 在 的 路 径 /home/soft/ micro-1.3.4-67 到 PATH 环 
境 变 量 下 。 
#./micro /etc/profile 


export PATH=/home/soft/micro-1.3.4-67:$PATH 


可 以 使 用 它 编 辑 配 置 文件 : 

#./micro run.pl 

输入 以 下 命令 行 : 

die "run.pl: Hello Error"; 

这 里 的 die 表示 终止 脚本 运行 ， 并 显示 出 die 后 面 双 引 号 中 的 内 容 。 
保存 文件 后 ， 按 Ctrl+Q 组 合 键 退 出 。 


1.4 安装 Kaldi 


一 般 在 Linux 操作 系统 下 运行 Kaldi， 下 面 讲解 在 CentOS 下 安装 Kaldi。 
首先 安装 Git。 
#yum install git 


然后 下 载 Kaldi。 


#git clone https://github.com/kaldi-asr/kaldi .git kaldi --origin upstream 


可 以 参考 下 载 文 件 中 的 说 明 安 装 。 在 源码 的 根 目录 下 有 一 个 INSTALL 文件 ， 其 中 描 
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述 了 安装 步 又。 在 tools/ 下 查看 INSTALL 安装 指令 ,然后 在 src/ 下 查看 INSTALL 安 
装 指令 。 到 /tools/extras 目录 下 ， 运 行 check dependencies.sh 脚本 ， 检 查 安 装 过 程 中 所 
依赖 的 工具 是 否 存 在 ， 运 行 的 结果 会 提示 安装 依赖 软件 的 命令 。 在 ./tool 目录 下 编译 源 
代码 ， 然 后 在 ./src 目录 下 编译 。 

在 ./tool 目录 下 只 需 输 入 make 命令 就 可 以 编译 ， 输 入 make -j 4 命令 可 以 用 多 核 并 
行 处 理 的 方式 加 快速 度 。 

切换 到 ./src 目录 下 ， 运 行 如 下 命令 : 


./configure 


make depend 
make -j] 4 


为 了 方便 以 后 使 用 ， 可 以 把 环境 打包 : 

tar -czf kaldiLinux.tar.gz ./kaldi 

egs 目录 下 保存 着 一 些 指定 数据 集 上 的 训练 步骤 (shell 脚本 ) 及 测试 的 结果 。 最 简 
单 的 是 yesno 例子 。 


1.5 _ yesno 例子 


首先 运行 以 下 这 个 例子 。 

#cd ./egs/yesno/s5 

#./run.sh 

经 过 一 段 时 间 的 训练 和 测试 ， 可 以 看 到 以 下 运行 结果 : 

sWER 0.00 [ 0/ 232, 0 ins, 0 del, 0 sub ] exp/mono0a/decode test yesno/wer 10 

这 里 的 WER (Word Error Rate) 是 字 错 误 率 ， 是 一 个 衡量 语音 识别 系统 准确 程度 
的 度量 。 其 计算 公式 为 WER=(ID+S)YN， 其 中 了 代表 被 插入 的 单词 个 数 ; DD 代表 被 删 
除 的 单词 个 数 ，S 代表 被 蔡 换 的 单词 个 数 。 也 就 是 说 ， 把 识别 出 来 的 结果 中 ， 多 认 的 、 
少 认 的 和 认错 的 全 都 加 起 来 , 再 除 以 总 单词 数 。 这 个 数值 当然 是 越 低 越 好 。 这 里 的 WER 
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为 0.00， 说 明 全 部 识别 正确 。 

数据 集 有 62 个 .wav 文件 ， 采 样 频率 为 8kHz。 所 有 音频 文件 由 Kaldi 项 目的 匿名 
男性 贡献 者 记录 ， 并 包含 在 项 目 中 用 于 测试 目的 。 把 它们 放 在 wave_yesno 目录 中 , 但 
数据 集 也 可 以 在 http://openslr.org/resources/1/waves_yesno.tar.gz 中 找到 。 在 每 个 文件 中 
这 个 人 说 8 个 字 ， 每 个 单词 都 是 “ken” 或 “lo” 和希 伯 来 语 中 的 “是 ”和 “和 否 ”) ， 因 
此 每 个 文件 都 是 8 个 “是 ”或 “和 否 ”的 随机 序列 。 以 下 文件 名 称 用 单词 序列 表示 ，1 代 
表 “ 是 ”0 代表 “ 否 ”。 


waves yesno/1 011101 0.wav 


1.5.1 数据 准备 


将 62 个 波形 文件 分 为 两 半 : 31 个 用 于 训练 ， 其 余 用 于 测试 。 创 建 数据 目录 ， 在 
其 中 创建 两 个 子 目录 train_yesno 和 test_yesno。 使 用 一 个 命名 为 data_prep.py 的 Python 
脚本 生成 必要 的 输入 文件 。 读 取 wave_yesno 中 的 文件 列表 。 生 成 两 个 列表 ， 一 个 存储 
以 0 开头 的 文件 名 称 ， 另 一 个 存储 以 1 开头 的 名 称 ， 忽 略 其 余 的 文件 。 

对 于 每 个 数据 集 (训练 集 和 测试 集 ) 都 需要 生成 代表 原始 数据 的 文件 一 一 音频 文件 
和 讲稿 文件 。 

1. 讲稿 文件 

对 于 讲稿 文件 ， 每 行 一 句 话 ， 语 法 格式 为 : 

<utt id> <transcript> 

例如 00111100NONOYESYESYESYESNONO 

这 里 使 用 没有 扩展 名 的 文件 名 作为 utt_ids。 虽 然 录 音 语 言 是 希 伯 来 语 ， 但 是 这 里 
使 用 英语 单词 YES 和 NO 代替 ， 以 免 使 问题 复杂 化 。 

2. wav.scp 


对 于 唯一 ID 的 索引 文件 ， 语 法 格式 为 : 
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<file id> < 带路 径 的 wave 文件 名 或 者 获取 .wav 文件 的 命令 > 
例如 : 0 1001011wavesyesno0100101 1.wav 


这 里 再 次 使 用 文件 名 作为 文件 ID。 


3. utt2spk 
对 于 每 句 话 ， 标 记 哪 个 说 话 者 说 出 来 ， 语 法 格式 为 : 
<utt id> <speaker id> 


由 于 这 个 例子 中 只 有 一 名 说 话 者 ， 所 以 使 用 “global” 作 为 说 话 者 标识 。 
4. spk2utt 
对 于 简单 的 反 向 索引 ， 可 以 使 用 Kaldi 工具 程序 生成 : 


utils/utt2spk to spk2utt.pl data/train yesno/utt2spk > data/train yesno/ 
spk2utt 


最 后 数据 目录 看 起 来 像 这 样 : 


data 

Ctrain yesno 

| Htext 

| 上 一 utt2spk 

| 上 一 spk2utt 

| wav.scp 

test yesno 
Htext 
上 一 utt2spk 
上 一 spk2utt 
-一 wav.scp 


1.5.2 词典 准备 


本 小 节 讲解 如 何 为 Kaldi 识别 器 构建 语言 知识 一 一 词典 和 音素 词典 。 
接 下 来 建立 词典 。 先 从 根 目录 创建 中 间 的 dict 目录 开始 。 
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mkdir dict 


在 这 种 语言 中 ， 只 有 YES 和 NO 两 个 词 。 为 了 简单 起 见 ， 假 设 它们 是 单 音素 词 Y 


和 N。 


echo -e "Y\nN" > dict/phones.txt #phones dictionary 
echo -e "YES Y\nNO N" > dict/lexicon.txt #word-pronunciation dictionary 


然而 ， 在 真实 的 讲话 中 ， 不 仅 有 表达 语言 的 人 的 声音 ， 还 有 沉默 和 噪声 。Kaldi 把 


所 有 这 些 非 语言 的 部 分 称 为 “沉默 ”。 例 如 ， 即 使 在 这 个 小 而 受 控 制 的 录音 中 ， 也 会 
在 每 个 单词 之 间 和 暂停 。 因 此 ， 需 要 一 个 额外 的 音素 “SIL” 代 表 沉 默 ， 而 且 可 以 在 所 有 
单词 的 结尾 发 生 。Kaldi 中 称 这 种 沉默 为 “可 选 的 沉默 ”。 


echo "SIL" > dict/silence Phones .txt 
echo "SIL" > dict/optional silence .txt 
mv dict/phones .txt dict/nonsilence _ phones .txt 


修改 词典 以 包含 沉默 : 


cp dict/lexicon.txt dict/lexicon words.txt 
echo "<SIL> SIL" >> dict/lexicon.txt 


注意 ，“<SIL>” 也 将 用 作 OOV 词 。 

dict 目录 下 应 该 最 终 得 到 以 下 这 5 个 文件 。 

elexicon.txt: 词素 -音素 对 的 完整 列表 。 

elexicon_ words.txt， 单词 -音素 对 列表 。 

e silence_ phones.txt: 无 声音 素 列 表 。 

e honsilence_phones.txt: 非 无 声音 素 列表 。 

e ”optional silence.txt: 可 选 无 声音 素 列表 (看 起 来 和 silence_ phones.txt 相同 ) 。 


最 后 ， 需 要 将 字典 转换 为 Kaldi 接受 的 数据 结构 


有 限 状态 转换 (FST) 。 在 Kaldi 


提供 的 许多 脚本 中 ， 将 使 用 utils/prepare_lang.sh 生成 FST 就 绪 的 数据 格式 来 表示 语言 


定义 。 


utils/prepare lang 


-sh --position-dependent-phones false <RAW DICT PATH> 


<OOV> <TEMP DIR> <OUTPUT DIR> 


a 
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其 中 ，--position-dependent-phones 参数 值 为 假 ， 因 为 这 里 没有 足够 的 上 下 文 。 对 于 所 
需 参 数 ， 我 们 将 使 用 

e <RAW DICT PATH>: dict。 

® <OOV>: "<SIL>"。 

。 <TEMP_DIR>: 可 以 在 任何 地 方 。 这 里 在 dict 中 创建 一 个 新 的 目录 tmp。 

。 <OUTPUT_DIR>: 此 输出 将 用 于 进一步 的 训练 ， 将 其 设置 为 data/lang。 

给 出 了 一 个 用 于 yesno 数据 的 样 例 一 元 语言 模型 。 会 在 lm 目录 下 找到 一 个 arpa 
格式 的 语言 模型 ， 然 而 语言 模型 也 需要 转换 成 FST。 为 此 ，Kaldi 也 带 来 了 许多 程序 。 
在 这 个 例子 中 ， 将 使 用 绑 定 的 脚本 lm/prepare_lm.sh， 它 将 生成 正确 格式 的 LM FST 并 
将 其 放 入 data/lang test tg 中 。 

接 下 来 是 MFCC 特征 提取 和 训练 GMM 模型 。 

首先 提取 梅 尔 频率 倒 谱 系数 。 

steps/make mfcc.sh --nj <N> <INPUT DIR> <OUTPUT DIR> 

e --nj <N>: 处 理 器 数量 ， 默 认为 4。 

e <INPUT_DIR>: 放 训 练 集 数据 的 地 方 。 

e <OUTPUT _DIR>: 允许 输出 到 exp/make_mfec/train_yesno, 遵循 Kaldi 配方 惯例 。 

现在 归 一 化 倒 谱 特 征 。 

steps/compute cmvn stats.sh <INPUT DIR> <OUTPUT DIR> 

<INPUT_DIR> 和 <OUTPUT _DIR> 与 上 述 相 同 。 这 些 shell 脚本 (.sh) 都 是 通过 Kaldi 
二 进 制 文件 的 管道 操作 ， 它 们 都 是 些 文本 处 理 操作 。 要 查看 实际 执行 了 哪些 命令 ， 请 
参阅 <OUTPUT_DIR> 中 的 日 志文 件 ， 或 者 最 好 查看 脚本 内 容 。 

训练 单 音素 模型 。 因 为 假设 在 该 语言 中 ， 音 素 不 依赖 于 上 下 文 。 


steps/train mono.sh --nj <N> --cmd <MAIN CMD> <DATA DIR> <LANG DIR> <OUTPUT 
DIR> 


。 --cmd <MAIN_CMD>: 因为 要 使 用 本 地 机 器 资源 ， 所 以 使 用 utils/run.pl 管道 。 
。 --nj <N>: 来 自 说 话 者 的 发 言 不 能 并 行 处 理 。 由 于 只 有 一 个 ， 因 此 只 能 使 用 1 
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个 任务 。 
e <DATA _DIR>: 训练 数据 的 路 径 。 
e <LANG _DIR>: 语言 定义 的 路 径 (prepare_lang 脚本 的 输出 ) 。 
e <OUTPUT_DIR>: 和 前 面 一 样 ， 使 用 exp/mono。 
这 将 产生 用 于 声学 模型 的 基于 FST 的 词 图 。 


/path/to/kaldi/src/fstbin/fstcopy'ark:gunzip -c exp/mono/fsts.1.gz|'ark, 
t:- | head -n 20 


上 述 命 令 , 将 以 人 可 读 的 格式 打印 出 前 20 行 词 图 (每 列表 示 : Q-from, Q-to, S-in，, 
S-out, Cost) 。 

图 解码 。 对 于 解码 ， 需 要 一 个 新 的 输入 ， 可 以 通过 AM&LM 词 图 实现 。 此 外 ,为 
data/test_yesno 准备 了 单独 的 测试 集 。 然 后 ， 需 要 建立 一 个 完全 连接 的 FST 网络。 

utils/mkgraph.sh --mono data/lang test tg exp/mono exp/mono/graph tgpr 

将 在 exp/mono/graph_tgpr 目录 中 构建 一 个 连接 的 HCLG。 

最 后 ， 需 要 使 用 解码 脚本 找到 测试 集中 话语 的 最 佳 路 径 。 查 看 解码 脚本 ， 找 出 什 
么 可 以 作为 它 的 参数 ， 然 后 运行 它 。 将 解码 结果 写 入 exp/mono/decode test_ yesno。 

steps/decode.sh 

上 述 命令 将 产生 输出 目录 中 的 lat.N.gz 文件 , 其 中 入 从 1 增加 到 使 用 的 作业 数 (对 
这 个 任务 来 说 ， 必 须 为 1) 。 这 些 文件 包含 由 解码 操作 的 第 六 个 线程 处 理 的 发 言词 图 。 
请 参阅 exp/mono/decode test_ yesno/wer X 文件 以 查看 WER， 人 参阅 exp/mono/ decode 
test_yesno/scoring/X.tra 查看 讲稿 。 这 里 X 表示 语言 模型 权重 (LMWT) ， 每 次 迭代 使 
用 的 评分 脚本 ， 将 lat.N.gz 文件 中 的 话语 的 最 佳 路 径 解释 为 单词 序列 〈 记 住 N 在 decoing 
操作 期 间 #thread) 。 如 果 需 要 ， 可 以 在 调用 score.sh 时 使 用 --min lmwt 和 --max_lmwt 选项 
来 特意 指定 权重 。 如 果 有 兴趣 获取 每 个 重新 编码 文件 的 单词 级 对 齐 信息 ， 请 查看 
steps/get_ ctm.sh 脚本 。 
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1.6 构建 一 个 简单 的 ASR 


本 节 将 数据 分 为 训练 和 测试 集 ， 建 立 一 个 ASR 系统 ， 对 其 进行 训练 、 测 试 并 获得 
一 些 解码 结果 。 在 kaldi-trunk/egs 目录 中 创建 一 个 digits 文件 来， 把 所 有 与 项 目 相 关 的 
文件 等 都 放 在 这 里 。 

假设 想 要 建立 一 个 基于 自己 的 音频 数据 的 ASR 系统 ， 需 要 100 个 文件 的 数据 集 ， 
文件 格式 为 .wav， 每 个 文件 包含 3 个 以 英文 记录 的 口语 数字 。 这 些 音频 文件 中 的 每 一 
个 以 可 识别 的 方式 命名 (例如 ，“1_5_6.wav”， 相 应 的 语音 句子 是 “一 、 五 、 六 ”)， 并 
且 在 特定 记录 会 话 期 间 放 置 在 表示 特定 说 话 者 可 识别 的 文件 夹 中 。 可 能 有 一 种 情况 一 一 同 
一 人 的 录音 在 两 个 不 同 的 质量 /噪声 环境 中 ， 这 时 要 将 它们 放 在 单独 的 文件 夹 中 。 总 结 
一 下 ， 示 范 数据 集 如 下 所 述 : 
10 个 不 同 的 说 话 者 (ASR 系统 必须 在 不 同 的 说 话 者 上 进行 训练 和 测试 , 所 以 说 
话 者 越 多 越 好 ) 。 
每 位 说 话 者 说 10 句 话 。 

e 100 个 句子 /话语 〈100 个 *.wav 文件 中 放置 在 与 特定 说 话 者 有 关 的 10 个 文件 夹 

中 ， 每 个 文件 夹 中 有 10 个 * .wav 文件 ) 。 

e 300 个 词 (0 一 9 的 数字 ) 。 

e 每 个 句子 /话语 由 3 个 词组 成 。 

无 论 第 一 个 数据 集 是 什么 ， 请 根据 具体 情况 调整 。 小 心 大 数据 集 和 复杂 的 语法 ， 
从 简单 的 开始 ， 在 这 种 情况 下 只 包含 数字 的 句子 比较 不 错 。 

找到 kaldi-trunk/egs/digits 目录 并 创建 digits_audio 文件 夹 , 在 kaldi-trunk/egs/digits/ 
digits_audio 中 再 创建 两 个 文件 夹 一 一 test 和 train。 选 择 一 个 说 话 者 来 表示 测试 数据 集 ， 
使 用 该 说 话 者 的 “speakerID ”作为 kaldi-trunk/egs/digits/digits_audio/test 目录 中 另 一 个 新 
文件 夹 的 名 称 ， 然 后 把 所 有 与 该 人 有 关 的 音频 文件 放 在 一 起 ;将 其 余 (9 个 说 话 者 ) 放 
入 train 文件 夹 ， 这 将 是 训练 数据 集 。 
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1. 音频 数据 

准备 音频 数据 。 必 须 创 建 一 些 文本 文件 ， 用 来 允许 Kaldi 系统 与 音频 数据 打交道 。 
在 此 部 分 (及 语言 数据 部 分 ) 创建 的 每 个 文件 都 可 以 被 视 为 具有 一 定数 量 的 字符 串 〈 每 
个 字符 串 占 一 个 独立 行 ) 的 文本 文件 。 这 些 字 符 串 需要 排序 ， 如 果 遇 到 任何 排序 问题 ， 
可 以 使 用 Kaldi 脚本 检查 (utils/validate_data_dir.sh) 和 修复 (utils/fix_data_dir.sh) 数据 
顺序 。 并 且 为 了 信息 ，nutils 目录 将 在 工具 附件 部 分 被 附加 到 用 户 的 项 目 。 

在 kaldi-trunk/egs/digits 目录 中 创建 test 和 train 子 文件 夹 后 ， 在 每 个 子 文件 夹 中 创 
建 以 下 文件 (在 test 和 train 子 文件 夹 中 以 同样 的 方式 命名 文件 ， 只 不 过 是 与 之 前 创建 
的 两 个 不 同 的 数据 集 相关 ) 。 

(1) spk2gender 

该 文件 记录 说 话 者 的 性 别 。 如 同 我 们 假设 的 ,“speakerID ”是 每 个 说 话 者 的 唯一 名 
称 〈 在 这 种 情况 下 ， 它 也 是 一 个 “recordingID”) 。 在 这 个 例子 中 ， 有 5 名 女性 和 5 
名 男性 说 话 者 (f= 女性 ，m = 男性 ) 。 

模式 : <speakerID> <gender> 

例如 : 


cristine f 

dad m 

josh m 

july £ 

ee 

(2) wav.scp 

该 文件 用 相关 的 音频 文件 连接 每 个 发 言 ( 在 特定 记录 会 话 期 间 由 一 个 人 说 的 句 
子 ) 。 如 果 坚 持 这 里 的 命名 方法 ，utteranceID 只 不 过 是 speakerID〔 说 话 者 的 文件 夹 名 
称 ) 附带 了 *.wav 文件 名 ， 而 没有 '`wav' 结 尾 〈 看 下 面 的 例子 ) 。 

模式 : <uterranceID> <full path to_audio file> 

例如 : 


dad 4 4 2 /home/{user}/kaldi-trunk/egs/digits/digits audio/train/dad/4 4 2.wav 
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july 1 2 5 /home/{user}/kaldi-trunk/egs/digits/digits audio/train/july/1 2 5.wav 
july 6 8 3 /home/{user}/kaldi-trunk/egs/digits/digits audio/train/july/6 8 3.wav 
《3 本 不 

该 文件 包含 与 其 文本 转录 匹配 的 每 个 发 言 。 

模式 : <uterranceID> <text_transcription> 


例如 : 


dad 4 4 2 four four two 
july 1 2 5 one two five 
july 6 8 3 six eight three 
着 


(4) utt2spk 

该 文件 告诉 ASR 系统 发 言 属 于 哪个 特定 的 说 话 者 。 
模式 : <uterranceID> <speakerID> 

例如 : 


dad 4 4 2 dad 
july 1 2 5 july 


july 6 8 3 july 
: 证 


(5) corpus.txt 

该 文件 目录 略 有 不 同 。 在 kaldi-trunk/egs/digits/data 中 创建 一 个 文件 夹 local， 在 
kaldi-trunk/egs/digits/data/local 中 创建 一 个 文件 corpus.txt， 该 文件 应 该 包含 可 能 发 生 在 
ASR 系统 中 的 每 一 个 话语 转录 (在 我 们 的 情况 下 ， 是 100 行 100 个 音频 文件 ) 。 

模式 : <text_transcription> 

例如 : 


one two five 
six eight three 
four four two 

: 
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2. 语言 数据 

下 面 涉及 的 语言 建 模 文件 ， 也 需要 将 其 视 为 “必须 完成 ”。 现 在 展示 的 是 一 个 理 
想 的 例子 。 

在 kaldi-trunk/egs/digits/data/local 目录 中 创建 一 个 文件 夹 dict， 在 kaldi-trunk/egs/ 
digits/data/local/dict 中 创建 以 下 文件 。 

(1) lexicon.txt 

该 文件 包含 字典 中 的 每 个 单词 及 其 电话 录音 〈 取 自 /egs/voxforge) 。 

模式 : <word> <phone 1> <phone 2>… 

例如 : 


(2) nonsilence phones.txt 


该 文件 列 出 了 项 目 中 存在 的 非 静止 的 音素 。 
模式 : <phone> 
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(3) silence phones.txt 
该 文件 列 出 了 静止 的 音素 。 
模式 : <phone> 


(4) optional silence.txt 
该 文件 列 出 了 可 选 的 静止 音素 。 
模式 : <phone> 


下 面 添加 在 示例 性 脚本 中 广泛 使 用 的 必需 的 Kaldi 工具 。 

从 kaldi-trunk/egs/wsj/s5 目录 中 复制 两 个 文件 夹 《和 全 部 内 容 ) 一 一 utils 和 steps， 
并 将 它们 放 在 kaldi-trunk/egs/digits 目录 中 。 同 时 ， 还 可 以 创建 到 这 些 目录 的 链接 ， 可 
以 在 kaldi-trunk/egs/voxforge/s5 中 找到 这 样 的 链接 。 

打分 脚本 可 帮助 获得 解码 结果 ， 从 kaldi-trunk/egs/voxforge/s5/local 目录 中 将 脚本 
score.sh 复制 到 项 目 中 的 相似 位 置 (kaldi-trunk/egs/digits/local) 。 此 外 ， 还 需要 安装 在 
这 个 示例 中 使 用 的 语言 建 模 工具 包 一 一 SRI 语言 建 模 (SRILM) 工具 包 。 有 关 详 细 的 安 
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装 说 明 ， 请 访问 kaldi-trunkytools/install srilm.sh (阅读 里 面 所 有 的 注释 ) 。 因 为 SRILM 
是 一 款 商 用 收费 的 软件 ， 所 以 没有 自动 下 载 的 脚本 。 下 载 srilm-1.7.2.tar.gz 并 重 命名 
为 srilmtgz 后 ， 运 行 install srilm.sh 。 


mv ./srilm-1.7.2.tar.gz ./srilm.tgz 
:/install srilm.sh 


在 kaldi-trunk/egs/digits 中 创建 一 个 文件 夹 conf， 在 该 文件 夹 内 部 创建 以 下 两 个 文 
件 〈 对 于 解码 和 mfcc 特征 提取 过 程 中 的 一 些 配置 修改 ， 取 自 /egs/voxforge) 。 
(1) decode.config 


first beam=10.0 
beam=13.0 
lattice beam=6.0 


(2) mfcc.conf 

--use-energy=false 

最 后 一 项 工作 是 准备 运行 脚本 来 创建 ASR 系统 。 

以 下 这 两 种 方法 足以 在 仅 使 用 数字 词典 和 小 训练 数据 集 的 情况 下 显示 解码 结果 的 
显著 差异 。 

e MONO: 单 声 道 训练 。 

。 TRI1: 简单 的 三 音素 训练 。 

在 kaldi-trunk/egs/digits 目录 中 创建 以 下 3 个 脚本 。 

(1 ) cmd.sh 

# 设 置 本 地 系统 任务 (本 地 CPU 无 须 外 部 群集 ) 


export train cmd=run.pl 
export decode cmd=run.pl 


(2) path.sh 


# 定 义 Kaldi 根 目录 

export KALDI ROOT='pwd'/../.. 

斐 设置 路 径 以 包含 有 用 的 工具 

export PATH=$PWD/utils/:$KALDI ROOT/src/bin:$KALDI ROOT/tools/openfst/ 
bin:$KALDI ROOT/src/fstbin/:$KALDI ROOT/src/gmmbin/:$KALDI ROOT/src/featbin/ 
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:$KALDI ROOT/src/lmbin/:$KALDI ROOT/src/sgmm2bin/:$KALDI ROOT/src/fgmmbin/ 
:$KALDI ROOT/src/latbin/:$PWD:$PATH 

坦 定 义 音频 数据 路 径 

export DATA ROOT="/home/{user}/kaldi-trunk/egs/digits/digits audio" 

# 启 用 SRILM 

Source $KALDI ROOT/tools/env.sh 

# 为 了 数据 能 够 正确 排序 所 需 的 变量 

export LC ALL=C 


(3) run.sh 


#!/bin/bash 

.-/path.sh || exit 1 

../cmd.sh || exit 1 

nj=1 # 并 行 任务 的 数量 。 对 于 这 样 一 个 小 数据 集 ， 取 1 就 很 好 

lm_order=1  # 语 言 模型 阶 数 (n-gram 数量 ) 。 对 于 数字 文法 来 说 ， 取 1 是 够 用 的 

# 安 全 机 制 (可 能 使 用 修改 后 的 参数 运行 此 脚本 ) 

. utils/parse options.sh || exit 1 

[[ $#-ge 1 ]] && { echo "Wrong arguments!"; exit 1; } 

# 删 除 以 前 创建 的 数据 (从 上 次 的 run.sh 执行 ) 

rm -rf exp mfcc data/train/spk2utt data/train/cmvn.scp data/train/feats.scp 
data/train/splitl data/test/spk2utt data/test/cmvn.scp data/test/feats.scp data/ 
test/splitl data/local/lang data/lang data/local/tmp data/local/dict/lexiconp.txt 


echo 

echo "===== PREPARING ACOUSTIC DATA =====" 

echo 

# 需 要 手工 准备 (或 使 用 自己 写 的 脚本 ) 

# 

#spk2gender [<speaker-id> <gender>] 

#wav. scp [<uterranceID> <full path to audio file>] 
#text [<uterranceID> <text transcription>] 
#utt2spk [<uterranceID> <speakerID>] 

#corpus .txt [<text transcription>] 

# 制 作 spk2utt 文件 


utils/utt2spk to spk2utt.pl data/train/utt2spk > data/train/spk2utt 
utils/utt2spk to spk2utt.pl data/test/utt2spk > data/test/spk2utt 
echo 

echo "===== FEATURES EXTRACTION 
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echo "===== TRI1 (first triphone pass) TRAINING =====" 
echo 
steps/train deltas.sh --cmd "$train cmd" 2000 11000 data/train data/lang 


exp/mono ali exp/tril || exit 1 
echo 


echo 
utils/mkgraph.sh data/lang exp/tril exp/tril/graph || exit 1 
steps/decode.sh --config conf/decode.config --nj $nj --cmd "$decode cmd" 


exp/tril/graph data/test exp/tril/decode 
echo 


现在 要 做 的 就 是 运行 run.sh 脚本 。 终端 的 日 志 能 提示 你 如 何 处 理 可 能 遇 到 的 错误 。 

除了 在 终端 窗口 中 会 注意 到 某 些 解码 结果 外 ， 进 入 新 创建 的 kaldi-trunk/egs/digits/ 
exp， 可 能 会 注意 到 该 exp 文件 夹 中 有 同样 目录 结构 的 mono 和 tril 结果 。 如 果 切 换 到 
mono/decode 目录 ， 在 这 里 可 能 会 找到 结果 文件 〈 以 wer_{number} 方 式 命 名 ) 。 解 码 
过 程 的 日 志 可 以 在 日 志文 件 夹 〈 同 一 目录 ) 中 找到 。 

在 成 功 安装 Kaldi 后 ， 可 运行 一 些 示 例 脚 本 〈 如 Yesno、Voxforge、LibriSpeech， 
它们 相对 容易 ， 有 免费 的 音频 /语言 数据 可 供 下 载 ) 。 


1.7 Voxforge 例子 


将 ./path.sh 中 的 变量 DATA_ROOT 设置 为 指向 数据 驻 留 的 目录 。 使 用 ./getdata.sh 
下 载 VoxForge 的 压缩 数据 至 ${DATA_ROOT}/ tgz, 并 提取 这 些 数 据 到 ${DATA_ROOT}/ 
extracted 。 

所 使 用 的 主要 子 目录 包括 以 下 几 个 。 

。 local/: 存放 每 个 例子 特有 的 脚本 。 这 主要 是 数据 归 一 化 的 内 容 一 一 从 具体 的 语 

音 数 据 库 获取 信息 ， 并 将 其 转换 为 后 续 期 望 的 文件 /数据 结构 。 用 Kaldi 使 用 新 


21* 


深度 学 习 : 语音 识别 技术 实践 


数据 的 工作 会 涉及 编写 和 修改 该 类 别 的 脚本 。 
。 conf/: 存放 小 的 配置 文件 ， 指 定 如 特征 提取 参数 和 解码 束 。 
。 steps: 存放 实现 各 种 声学 模型 训练 方法 的 脚本 ， 主 要 通过 调用 Kaldi 的 二 进 制 


工具 和 utils/ 中 的 脚本 。 


e nutils/: 存放 执行 小 型 底层 任务 的 脚本 ， 例 如 向 词典 添加 消除 歧义 符号 ， 在 单词 
的 符号 和 整数 表示 之 间 进 行 转换 。 
e data/: 存储 配方 运行 时 生成 的 各 种 元 数据 , 大 部 分 是 由 local/ 中 的 脚本 生成 的 。 
e exp/: 配方 最 重要 的 输出 〈 包 括 声学 模型 和 识别 结果 ) 就 存放 在 这 里 。 
e tools/: 存放 各 种 外 部 工具 。 
该 配方 可 以 选择 对 VoxForge 数据 的 一 部 分 进行 训练 和 测试 。 对 于 (几乎 ) 每 个 提 
交 目 录 都 有 一 个 etc/README 文件 ， 带 有 发 音 方言 的 元 信息 和 说 话 者 的 性 别 。 例 如 ， 


选择 如 下 四 


国 的 英语 : 


dialects=" ( (American) | (British) | (Australia) | (Zealand) )" 

如 果 想 选择 所 有 VoxForge 的 英文 演讲 ， 应 该 将 其 设置 为 ; 

dialects="English" 

VoxForge 允许 匿名 演讲 者 注册 和 演讲 ， 从 Kaldi 的 脚本 观点 来 看 ， 这 样 不 理想 ， 
因为 Kaldi 要 执行 说 话 者 依赖 变换 。“ 匿 名 ”讲话 记录 在 不 同 环境 /通道 条 件 〈 使 用 麦 
克 风 、 背 景 噪声 等 ) 下 ， 演 讲 者 可 能 是 男性 ， 也 可 能 是 女性 ， 并 且 具 有 不 同 的 口音 ， 
所 以 决定 给 每 个 演讲 者 独一无二 的 身份 。local/voxforge fix_data.sh 根据 提交 日 期 将 所 
有 “匿名 ”演讲 者 重 命 名 为 “anonDDDD” (其 中 D 代表 十 进 制 数字 ) ， 这 不 完全 精 
确 。 因 为 它 可 能 会 给 录制 在 两 个 不 同日 期 的 同一 位 演讲 者 带 来 两 个 不 同 的 ID， 并 给 予 
恰好 在 同一 天 发 表演 讲 的 两 个 或 更 多 不 同 “ 匿 名 ”演讲 者 相同 的 ID。 

将 匿名 演讲 者 映射 到 唯一 ID: 

local/voxforge map anonymous.sh ${selected} 


接 下 来 将 数据 分 成 训练 和 测试 集 ， 并 产生 相关 的 转录 和 说 话 者 依赖 信息 。 这 些 步 
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又 由 一 个 相当 复杂 而 非特 别 有 效 的 脚本 〈 称 为 local/voxforge data prep.sh) 执行 。 在 
run.sh 中 定义 要 分 配给 测试 集 的 说 话 者 数量 , 随机 选择 实际 的 说 话 者 测试 集 。 这 可 能 不 
是 一 个 理想 的 安排 ， 因 为 每 次 启动 voxforge_data_prep.sh 时 ， 说 话 者 都 会 不 同 ， 并 且 测 
试 集 的 WER 也 可 能 稍微 不 同 。 由 于 VoxForge 仍然 没有 预定 义 的 高 质量 训练 和 测试 集 
及 测试 时 语言 模型 ， 所 以 这 不 是 很 重要 。 

数据 的 初始 归 一 化 : 

local/voxforge data prep.sh --nspk test ${nspk test} ${selected} 

使 用 MITLM 工具 包 来 评估 测试 时 语言 模型 。 用 一 个 名 为 local/voxforge_prepare_lm.sh 
的 脚本 在 tools/mitim-svn 中 安装 MITLM， 然 后 在 训练 集 上 训练 出 语言 模型 。 

local/voxforge_prepare_dict.sh 是 用 于 准备 词典 的 脚本 。 它 首 先 下 载 CMU 的 发 音 词 
典 , 并 准备 在 训练 集中 有 而 不 在 cmudict 中 的 单词 列表 。 使 用 Sequitur G2P 自动 生成 这 
些 单词 的 发 音 ， 该 工具 安装 在 tools/g2p 下 。 因 为 Sequitur 模型 的 训练 很 花费 时 间 ， 这 
个 脚本 会 下 载 并 使 用 一 个 在 cmudict 上 预先 构建 好 的 模型 。 

解码 脚本 大 部 分 是 从 WSJ 和 RM 脚本 中 借用 的 。 


1.8 数据 准备 


在 顶层 的 run.sh (例如 ,egs/rm/s5/run.sh) 中 有 一 些 命令 与 数据 准备 各 个 阶段 相关 。 
名 为 local/ 的 子 目 录 中 的 部 分 始终 特定 于 数据 库 。 例 如 ， 在 资源 管理 (RM) 设置 中 ， 
它 是 localrm data prep.sh。 在 RM 的 情况 下 ， 这 些 命令 为 : 


local/rm data prep.sh /export/corpora5/LDC/LDC93S3A/rm comp || exit 1; 

utils/prepare lang.sh data/local/dict '!SIL' data/local/lang data/lang || 
exit 1; 

local/rm prepare grammar.sh || exit 1; 


在 WSJ 脚本 中 ,命令 为 : 


Wsj0=/export/corpora5/LDC/LDC93S6B 
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Wsj1=/export/corpora5/LDC/LDC94S13B 

local/wsj data prep.sh $wsj0/22-{?,22}.2? $wsj1/?2-{?,22}.2 || exit 1; 

local/wsj prepare dict.sh || exit 1; 

utils/prepare lang.sh data/local/dict "<SPOKEN NOISE>" data/local/lang tmp 
data/lang || exit 1; 

local/wsj format data.sh || exit 1; 


在 WSJ 脚本 中 有 更 多 的 命令 与 本 地 的 训练 语言 模型 相关 , 但 上 面 的 命令 是 最 重要 
的 命令 。 

数据 准备 阶段 的 输出 包括 两 个 ， 一 个 涉及 “数据 ”( 目 录 如 data/train/) ， 一 个 涉 
及 “语言 ”( 目 录 如 data/llang/) 。“ 数 据 ” 部 分 与 用 户 拥有 的 特定 录音 有 关 ， 而 “语言 
部 分 包含 与 语言 本 身 相 关 的 内 容 ， 例 如 词典 、 音 素 集合 及 有 关 Kaldi 所 需 音素 集合 的 
各 种 额外 信息 。 如 果 要 准备 使 用 现 有 系统 和 现 有 语言 模型 解码 的 数据 ， 则 只 需 接触 
“data” 部 分 即 可 。 

(1) “数据 ”部 分 的 数据 准备 

训练 数据 位 于 data/train 目录 下 ; 测试 数据 位 于 data/eval2000 这 样 的 目录 下 ， 和 训 
练 数据 集 具有 基本 相同 的 格式 ， 只 是 可 能 在 测试 目录 中 有 “.stm” 和 “.glm” 文 件 ， 以 
启用 sclite 评分 。sclite 是 一 款 语音 识别 结果 打分 软件 。 

在 egs/swbd/s5 目录 下 查看 一 个 电话 总 机 的 例子 ， 执 行 命令 为 : 


s5# 1s data/train 
cmvn.scp feats.scp reco2file and channel segments spk2utt text utt2spk 


wav. scp 
不 是 所 有 的 文件 都 是 同等 重要 的 。 简 单 的 设置 是 没有 分 割 信息 的 〈 即 每 个 话语 对 
应 一 个 文件 ) 。 必 须 自 行 创 建 的 文件 包括 text、wav.scp 和 utt2spk， 有 时 需要 创建 
segments 和 reco2file and_channel， 剩 下 的 可 由 标准 脚本 创建 。 
text 文件 包含 每 个 话语 的 转录 。 在 电话 总 机 的 例子 中 ， 这 个 文件 为 : 


s5# head -3 data/train/text 

sw02001-A 000098-001156 HI UM YEAH I'D LIKE TO TALK ABOUT HOW YOU DRESS FOR 
WORK AND 

sw02001-A _001980-002131 UM-HUM 
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sw02001-A 002736-002893 AND IS 

从 上 述 第 二 行 开 始 , 每 一 行 的 第 一 个 元 素 是 话语 id, 它 是 一 个 任意 的 文本 字符 串 ， 
但 如 果 设 置 中 有 说 话 者 信息 ， 应 该 使 speaker-id 成 为 话语 id 的 前 级 ， 这 对 于 与 这 些 文 
件 的 排序 有 关 的 原因 很 重要 。 其 余部 分 是 每 个 话语 的 转录 ， 不 必 确 保 所 有 单词 都 在 词 
汇 表 中 ， 词 汇 表 中 的 单词 将 被 映射 到 data/lang/oov.txt 文件 中 指定 的 单词 。 

要 注意 utt2spk 和 spk2utt 这 两 个 文件 的 排序 顺序 一 致 性 。 例 如， 从 utt2spk《〈 语 音 
-id 所 对 应 的 说 话 者 -id) 文件 提取 的 说 话 者 -id 列表 和 字符 串 的 排序 顺序 一 样 。 最 简单 
的 做 法 就 是 说 话 者 -id 作为 语音 -id 的 前 缀 ， 一 般 用 “-” 分 隔 。 如 果 说 话 者 -id 长 度 不 一 
致 ， 在 某 些 情况 下 用 标准 的 C 字符 串 排序 时 ， 说 话 者 -id 和 其 对 应 的 语音 -id 可 能 以 不 
同 的 顺序 进行 排序 ， 这 可 能 导致 程序 骨 溃 。 

另外 一 个 重要 文件 就 是 wav.scp。 在 电话 总 机 的 例子 中 ， 这 个 文件 为 : 


s5# head -3 data/train/wav.scp 


sw02001-A /home/dpovey/kaldi-trunk/tools/sph2pipe v2.5/sph2pipe -f wav -p 
-C 1 /export/corpora3/LDC/LDC97S62/swbl/sw02001.sph | 

sw02001-B /home/dpovey/kaldi-trunk/tools/sph2pipe v2.5/sph2pipe -f wav -p 
-Cc 2 /export/corpora3/LDC/LDC97S62/swbl/sw02001.sph | 


格式 为 : 

<recording-id> <extended-filename> 

上 述 格式 中 extended-filename 可 能 是 确切 的 文件 名 ， 或 者 是 提取 .wav 格式 文件 的 
命令 。extended-filename 最 后 的 管道 符号 意味 着 它 将 被 解读 成 管道 。 如 果 分 割 文件 不 存 
在 ， 那 么 wav.scp 每 行 的 第 一 个 字符 就 是 语音 -id。wav.scp 必须 是 单 声 道 的 ， 如 果 底 层 
语音 文件 有 多 个 声 道 ， 那 么 在 wav.scp 中 就 必须 有 一 个 短命 令 用 来 提取 指定 的 通道 。 

在 Switchboard 设置 中 有 segments 文件 ， 这 个 文件 为 : 


s5# head -3 data/train/segments 

Sw02001-A_000098-001156 sw02001-A 0.98 11.56 
Sw02001-A 001980-002131 sw02001-A 19.8 21.31 
SW02001-A _002736-002893 sw02001-A 27.36 28.93 
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和 结 


格式 为 : 

<utterance-id> <recording-id> <segment-begin> <segment-end> 

上 述 格 式 中 分 别 代表 语音 -id、 记 录 -id、 分 割 开始 时 间 、 分 制 结束 时 间 ， 分 割 的 开始 
束 单 位 为 s。recording-id 是 wav.scp 中 使 用 的 相同 标识 ， 也 是 可 以 自行 选择 的 任意 


标识 。 


的 任 
如 果 


样 的 
者 标 


TIeco2file and_channel 文件 只 在 打分 (测量 错误 率 ) 时 用 到 。 这 个 文件 为 : 


s5# head -3 data/train/reco2file and channel 
Sw02001-A sw02001 A 
Sw02001-B sw02001 B 
Sw02005-A sw02005 A 


格式 为 : 

<recording-id> <filename> <recording-side (A or B)> 

上 述 格 式 中 flename 为 .sph 文件 的 名 称 ， 没 有 后 级 ， 但 一 般 来 说 ， 它 是 .stm 文件 中 
何 标识 符 。recording-side 代表 一 个 电话 对 话 中 两 个 声 道 , 如 果 不 是 , 选择 A 更 安全 。 
没有 .stm 文件 或 不 知道 干什么 ， 就 没 必要 创建 record2file and_channel 文件 。 
date/train 目录 下 还 需要 自行 创建 的 文件 是 utt2spk 文件 。 这 个 文件 为 : 


s5# head -3 data/train/utt2spk 
sw02001-A _000098-001156 2001-A 
sw02001-A _001980-002131 2001-A 
sw02001-A 002736-002893 2001-A 


格式 为 : 

<utterance-id> <speaker-id> 

说 话 者 -id 不 需要 精确 地 对 应 每 一 个 说 话 者 ， 有 个 大 概 的 猜测 就 好 。 可 能 会 出 现 这 
情况 一 一 打 电 话 的 一 方 说 了 几 句 话 后 可 能 会 将 电话 给 另外 一 个 人 。 如 果 没 有 说 话 
识 的 相关 信息 , 可 以 使 说 话 者 -id 和 语音 -id 相同 , 因此 有 人 创建 了 global 说 话 者 -id 


(所 有 语音 只 对 应 一 个 说 话 者 ) 。 这 样 做 不 理想 的 原因 在 于 : 它 使 得 CMN 在 训练 时 无 


效 ( 
而 且 


因为 被 全 局 应 用 ， 一 般 CMN 都 是 在 句子 内 或 者 说 一 条 语音 内 减 去 特征 的 均值 ) ， 
在 使 用 utils/split_data_dir.sh 分 割 数据 时 会 引起 问题 。 
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在 一 些 数据 集中 还 存在 其 他 的 文件 ， 例 如 与 性 别 相关 的 文件 为 : 


Ss5# head -3 ../../rm/s5/data/train/spk2gender 
adg0 f 
ahh0 m 
ajp0 mm 


上 述 所 有 的 文件 都 要 排序 ， 未 排序 会 出 现 错误 。 排 序 的 最 终 目的 是 使 一 些 不 支持 
fseek0) 的 数据 流 也 能 够 达到 随机 访问 的 效果 。 许 多 Kaldi 程序 从 其 他 Kaldi 命令 中 读 取 
很 多 管道 、 不 同类 型 的 对 象 ， 并 且 与 合并 排序 的 不 同 输入 做 比较 。 排 序 时 要 小 心 ， 将 
shell 变量 LC_ALL 定义 为 “C”: 

export LC ALL=C 

如 果 不 这 样 做 , 文件 的 排序 顺序 将 与 C++ 排序 字符 串 的 顺序 不 同 ， 而 Kaldi 会 崩溃 。 

如 果 数 据 中 有 .stm 和 .glm 文件 ， 使 用 local/score.sh 脚本 文件 可 以 计算 WER。 电 话 
总 机 设置 中 会 用 到 这 些 文件 的 打分 脚本 ， 例 如 egs/swbd/s5/local/score_sclite.sh 就 会 被 
egs/swbd/s5/local/score.sh 调用 。 

可 以 从 用 户 提 供 的 文件 生成 相应 目录 中 的 其 他 文件 。 例如 , utt2spk 转换 成 spk2utt: 

utils/utt2spk to spk2utt.pl data/train/utt2spk > data/train/spk2utt 

因为 utt2spk 和 spk2utt 具有 相同 的 信息 ， 所 以 能 够 转换 。 

utt2spk 的 格式 : 

<utterance-id><speaker-id> 

spk2utt 的 格式 : 

<spaker-id><utterance-id>... 

接 下 来 ， 查 看 feats.scp 文件 。 这 个 文件 为 : 


s5# head -3 data/train/feats.scp 

sw02001-A_000098-001156 /home/dpovey/kaldi-trunk/egs/swbd/s5/mfcc/raw mfcc_ 
train. lAark:24 

sw02001-A 001980-002131 /home/dpovey/kaldi-trunk/egs/swbd/s5/mfcc/raw mfcc 
train.1.ark:54975 

SWw02001-A_002736-002893 /home/dpovey/kaldi-trunk/egs/swbd/s5/mfcc/raw mfcc 
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train.1.ark:62762 

该 文件 指向 提取 的 特征 ,在 电话 总 机 例子 中 是 指向 MFCC 特征 , 因为 用 了 make _mfec. 
sh 脚本 。 

在 Kaldi 中 每 个 特征 文件 都 包含 一 个 矩阵 ， 在 电话 总 机 例子 中 和 抢 阵 的 维度 将 会 是 
13 维 (文件 以 10ms 作为 间隔 ) 。/home/dpovey/kaldi-trunk/egs/swbd/s5/mfcc/raw_mfee_ 
train.1.ark:24 的 意思 是 ， 打 开 .ark 文件 ， 通 过 fseek0 文 件 找到 第 24 个 位 置 ， 从 这 开始 

格式 为 : 

<utterance-id> <extended-filename-of-features> 

feats.scp 通过 以 下 命令 创建 : 


steps/make mfcc.sh --nj 20 --cmd "$train cmd" data/train exp/make mfcc/train 
$mfccdir 


该 脚本 被 顶层 的 run.sh 脚本 调用 。shell 变量 的 定义 可 查看 脚本 说 明 。$mfecdir 是 
用 户 指 定 的 目录 ，.ark 文件 会 写 入 到 这 个 目录 中 。 

data/train 目录 的 最 后 一 个 文件 是 cmvn.scp。 该 文件 包含 倒 谱 均值 和 方差 规整 的 数据 ， 
通过 说 话 者 标识 进行 索引 。 每 组 统计 量 都 是 一 个 矩阵 ， 在 电话 总 机 例子 中 是 维 数 2X 14 
的 矩阵 。 

cmvn.scp 文件 中 的 部 分 内 容 如 下 : 


s5# head -3 data/train/cmvn.scp 

2001-A /home/dpovey/kaldi-trunk/egs/swbd/s5/mfcc/cmvn train.ark:7 
2001-B /home/dpovey/kaldi-trunk/egs/swbd/s5/mfcc/cmvn train.ark:253 
2005-A /home/dpovey/kaldi-trunk/egs/swbd/s5/mfcc/cmvn train.ark:499 


和 feats.scp 不 同 的 是 ， 该 文件 是 通过 说 话 者 -id 进行 索引 的 。 该 文件 通过 以 下 命令 
创建 : 
steps/compute cmvn stats.sh data/train exp/make mfcc/train $mfccdir 


为 了 防止 数据 准备 阶段 的 错误 引发 后 续 问题 ， 有 工具 可 检查 脚本 是 否 符合 格式 规范 : 


utils/validate data dir.sh data/train 
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以 下 命令 可 以 用 来 修复 数据 : 

utils/fix data dir.sh data/train 

此 脚本 将 修复 排序 错误 ， 并 将 删除 缺少 某 些 必需 数据 〈 如 特征 数据 或 讲稿 ) 的 任 
何 话语 。 

(2) “语言 ”部 分 的 数据 准备 

查看 “lang” 目 录 下 的 文件 。 


s5# 1s data/lang 
L.fst L disambig.fst oov.int oov.txt phones phones.txt topo words.txt 


还 有 很 多 其 他 路 径 有 相似 的 格式 ， 例 如 在 “data/lang_test” 路 径 下 就 包含 了 相同 
的 信息 ， 还 多 了 一 个 G.fst 文 件 。 


s5# 1s data/lang test 


t 


G.fst L.fst L disambig.fst oov.int oov.txt phones phones.txt topo words.txt 

这 些 目 录 中 的 每 一 个 似乎 只 包含 几 个 文件 ， 但 实际 不 是 那么 简单 ， 例 如 “phones” 
就 是 一 个 目录 ， 而 不 是 文件 。 

s5# 1s data/lang/phones 


context indep.csl disambig.txt nonsilence.txt roots.txt silence.txt 


context indep.int extra questions.int optional silence.csl sets.int word 
boundary.int 


context indep.txt extra questions.txt optional silence.int sets.txt word_ 
boundary .txt 


disambig.csl nonsilence.csl optional silence.txt silence.csl 

phones 目录 包含 音素 集合 的 各 种 信息 ， 其 中 一 些 文件 有 3 个 不 同 的 版 本 ， 扩 展 名 
为 .csl、.int 和 .txt， 这 3 种 格式 包含 了 相同 的 信息 ， 不 需要 全 部 创建 。 因 为 通过 一 个 简 
单 的 输入 ，utils/prepare_lang.sh 脚本 就 会 输出 这 些 文件 。 

接 下 来 创建 lang 目录 。data/lang/ 目 录 包 含 很 多 不 同 的 文件 ， 所 以 提供 了 脚本 从 一 
些 简单 的 输入 开始 来 创建 这 些 文件 。 

utils/prepare lang.sh data/local/dict "<UNK>" data/local/lang data/lang 


这 里 的 输入 是 目录 data/local/dict/, 标签 <UNK> 用 来 映射 出 现在 讲稿 中 的 OOV 单 
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词 ( 这 会 成 为 data/lang/oov.txt) 。data/local/lang/ 是 脚本 会 用 到 的 临时 目录 ; data/lang/ 
是 脚本 的 输出 目录 。 
数据 准备 者 需要 创建 的 是 目录 data/local/dict/。 此 目录 包含 以 下 内 容 : 


s5# 1s data/local/dict 
extra questions.txt lexicon.txt nonsilence phones.txt optional silence.txt 
silence phones.txt 


实际 上 还 有 几 个 没有 列 出 的 文件 ， 但 它们 只 是 创建 data/lang 目录 放 进 去 的 临时 文 
件 ， 可 以 忽略 它们 。extra_questions.txt 是 一 个 空 文件 。nonsilence_phones.txt 和 silence_ 
phones.txt 分 别 用 于 分 开 “ 真 实 ” 音 素 和 “静音 ”音素 。 

nonsilence_phones.txt 文件 中 的 内 容 如 下 : 


s5# head -3 data/local/dict/nonsilence phones.txt 
让 
B 
D 


silence_phones.txt 文件 中 的 内 容 如 下 : 


S5# cat data/local/dict/silence phones.txt 
SIL 


lexicon.txt 文件 中 的 内 容 如 下 : 


s5# head -5 data/local/dict/lexicon.txt 
1SIL SIL 

Sr 

人 区 

-'TKUH D ENT 

-lIKWAHNEK EY 


格式 为 : 
<word> <phonel> <phone2> ... 


注意 : 如 果 同 一 个 词 有 不 同 发 音 ， 则 lexicon.txt 中 可 能 会 包含 分 布 在 不 同行 的 多 


»30*， 


第 1 章 语音 识别 拷 术 


个 重复 条 目 。 如 果 想 使 用 发 音 概 率 ， 创 建 lexiconp txt (第 二 个 字段 是 概率 ) 代替 原来 
的 lexicon txt。 注 意 一 般 都 要 对 发 音 概 率 进 行规 范 化 ， 这 样 可 以 让 每 个 单词 最 有 可 能 的 
发 音 总 是 一 个 ， 从 而 得 到 更 好 的 结果 。 对 于 以 发 音 概率 运行 的 顶层 脚本 ， 可 以 在 
egs/wsj/s5/run.sh 中 通过 关键 字 “pp” 找 到 。 

文件 extra_questions.txt 涉及 重音 标记 或 音调 标记 的 一 些 内 容 ， 用 户 可 能 会 需要 具 
有 不 同 重音 或 音调 的 特定 音素 的 不 同 版 本 。 为 了 演示 这 样 的 内 容 ， 查 看 与 上 述 相 同 的 
文件 ， 但 在 egs/wsj/s5/ 中 。 结 果 如 下 : 
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UWO RAOO AYO EY0 OY0 UHO ER0 RA0 IHO AHO OWO AWO AEO IY0 EHO 
UW2 AO2 AY2 EY2 OY2 UH2 ER2 AA2 IH2 AH2 OW2 AW2 AE2 IY2 EH2 


可 以 看 到 ，nonsilence_phones.txt 中 有 些 单行 中 包括 多 个 音素 。 这 些 是 元 音 的 不 同 
重音 相关 版 本 。 注 意 ，CMU 字典 中 每 个 音素 都 出 现 了 4 个 不 同 版 本 ， 例 如 ，UW UW0 
UW1 UW2, 由 于 某 些 原因 , 其 中 一 个 版 本 没有 数字 后 级 。 音素 在 一 行 的 顺序 并 不 重要 ， 
但 分 组 到 不 同行 时 就 很 重要 了 ; 一 般 来 说 ，Kaldi 建议 “真实 音素 ”分 组 的 不 同形 式 在 
不 同行 。Kaldi 使 用 CMU 字典 中 存在 的 重音 标记 。 文 件 extra_questions.txt 包括 一 个 含 
所 有 “silence” 音 素 的 问题 (实际 上 这 是 不 必要 的 ， 因 为 脚本 prepare_lang.sh 会 添加 这 
样 的 问题 )》， 还 有 一 个 与 每 个 不 同 的 重音 标记 相对 应 的 问题 。 为 了 从 重音 标记 得 到 更 
好 的 结果 ， 这 些 问 题 是 必要 的 ， 因 为 实际 上 每 个 音素 的 不 同 重音 相关 版 本 都 统一 放 在 
nonsilence_phones.txt 文件 行 中 , 确保 它们 都 在 文件 data/lang/phones/roots.txt 和 data/lang/ 
phones/sets.txt 中 ， 这 反 过 来 又 确保 它们 共享 相同 的 树 根 结 点 ， 并 且 永 远 不 能 被 一 个 问 
题 所 区 分 。 因 此 ， 必 须 提供 一 个 特殊 的 问题 ， 使 决策 树 建立 过 程 能 够 区 分 音素 。 注 意 ， 
将 音素 放 在 sets.txt 和 roots.txt 中 的 原因 是 ， 一 些 重音 相关 版 本 的 音素 可 能 没有 足够 的 
数据 可 靠 地 估计 单独 的 决策 树 或 生成 问题 时 用 到 的 音素 聚 类 信息 。 通 过 将 它们 分 组 在 
一 起 ， 确 保 在 没有 足够 数据 的 情况 下 分 别 预测 它们 ， 这 些 不 同 版 本 的 音素 在 整个 决策 
树 构 建 过 程 中 都 “保持 在 一 起 ”。 

还 有 一 点 要 提出 的 是 脚本 utils/prepare_lang.sh 支持 几 个 选项 。 以 下 是 脚本 的 使 用 
庆 息 ， 可 以 看 看 这 些 选项 到 底 是 什么 。 


usage: utils/prepare lang.sh <dict-src-dir> <oov-dict-entry> <tmp-dir> < 
lang-dir> 

e.g.: utils/prepare lang.sh data/local/dict <SPOKEN NOISE> data/local/la 
ng data/lang 


options: 
--num-sil-states <number of states> 井 默认 : 5， 间 静音 模型 中 的 状态 
--num-nonsil1-states <number of states> 井 默 认 : 3， 间 非 静音 模型 中 的 状态 
--position-dependent-phones (true1false) 间 默认 : true; 如 果 是 true, 则 使 用 
1 
后 音 素 上 的 标记 表示 单词 内 部 位 置 
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--share-silence-phones (truelfalse) # 默 认 : false; 如 果 为 true， 则 共享 所 
有 非 静 音 音素 的 pdfs 
—-sil-prob <probability of silence> 二 默认 : 0.5 [必须 保证 0 < silprob< 1] 


一 个 潜在 的 重要 选项 是 -share-silence-phones 选项 ， 其 默认 值 为 false。 如 果 该 选项 
为 tue， 则 将 共享 所 有 静音 音素 的 所 有 PDF〈 高 斯 混合 模型 )， 例 如 静音 、 发 声 噪声 、 
噪声 和 笑 声 ， 并 且 这 些 模 型 之 间 仅 转 换 概率 不 同 。 它 对 IARPA BABEL 项 目的 粤语 数 
据 非常 有 帮助 。 这 些 数据 非常 混乱 且 有 很 长 的 未 转录 部 分 ， 所 以 试图 将 其 与 为 此 目的 
指定 的 特殊 音素 对 齐 。 训 练 数据 在 某 种 程度 上 可 能 无 法 正确 对 齐 ， 并 且 由 于 某 种 原因 ， 
将 此 选项 设置 为 true 会 改变 未 对 齐 的 情况 。 

创建 G.fst 文件 。 实 际 上 ,在 某 些 设置 中 ， 可 能 有 许多 “lang” 目 录用 于 测试 目的 ， 
具有 不 同 的 语言 模型 和 词典 。 华 尔 街 日 报 (WSJ) 的 设置 就 是 一 个 例子 。 

s5# echo data/lang* 

data/lang data/lang test bd fg data/lang test bd tg data/lang test bd tgpr 
data/lang test bg \ 

data/lang test bg 5k data/lang test tg data/lang test tg 5k data/lang test 
tgpr data/lang test tgpr 5k 

根据 是 使 用 统计 语言 模型 还 是 使 用 某 种 语法 , 创建 G.fst 文件 的 过 程 是 不 同 的 。 在 
RM 设置 中 有 一 个 bigram 语法 ， 它 只 允许 某 些 单词 对 。 通 过 在 输出 边 的 数量 上 分 配 1 
的 概率 ， 使 这 个 和 在 每 个 文法 状态 中 为 1。local/rm_data_prep.sh 中 有 一 个 语句 ， 它 执 
行 以 下 操作 : 

local/make rm lm.pl $RMROOT/rml audiol/rml/doc/wp gram.txt > $tmpdir/G. 
txt Il exit 1s 

此 脚本 local/make_rm_lm.pl 以 FST 格式 创建 语法 (是 文本 格式 ， 而 不 是 二 进 制 格 
式 ) ， 它 包含 如 下 行 : 

Ss5# head data/local/tmp/G.txt 

0 好 ADD ADD 5.19849703126583 


0 名 AJAX+S AJAX+S 5.19849703126583 
0 3 APALACHICOLA+S APALACHICOLA+S 5.19849703126583 


脚本 utils/format_lm.sh 把 ARPA 格式 的 语言 模型 转换 成 OpenFST 格式 类 型 。 该 脚 
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本 用 法 如 下 : 


Usage: utils/format lm.sh <lang dir> <arpa-LM> <lexicon> <out dir> 

E.g.: utils/format lm.sh data/lang data/local/lm/foo.kn.gz data/local/ 
dict/lexicon.txt data/lang test 

Convert ARPA-format language models to FSTs. 


该 脚本 的 一 些 关 键 命 令 如 下 : 
gunzip -c $lm \ 
| arpa2fst --disambig-symbol=#0 \ 
--read-symbol-table=$out dir/words.txt - $out dir/G.fst 


Kaldi 程序 arpa2fst 将 ARPA 格式 的 语言 模型 转换 成 一 个 加 权 有 限 状 态 转换 器 ( 实 
际 上 是 接收 器 ) 。 


1.9 加 权 有 限 状 态 转 换 


因为 大 多 数组 件 〈 语 言 模型 、 词 典 和 词 图 ) 都 是 可 以 用 有 限 状态 机 描述 ， 可 以 通 
过 组 合 操作 将 不 同 的 模型 集成 到 一 个 模型 中 ， 所 以 采用 加 权 有 限 状 态 转换 (WFST) 。 
WFST 是 用 于 描述 模型 的 统一 框架 。 

级 联 多 个 加 权 有 限 状 态 转换 如 下 。 

H: HMM 

C: 上 下 文 相关 模型 

L: 词典 

Gh 文法 

级 联 4 个 WFST 的 形式 化 写法 为 : 

HCODOG 

只 需要 将 这 个 识别 网 络 (WFST 网 络 ) 读 入 内 存 ， 然 后 基于 声学 模型 就 可 以 在 这 
个 网 络 上 完成 解码 ， 不 需要 像 原 有 系统 那样 同时 考虑 声学 模型 、 词 典 和 语言 模型 等 。 
这 样 简化 了 语音 识别 系统 的 设计 与 实现 。 
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1.9.1 FSA 


有 限 状 态 接收 器 (Finite State Acceptor，FSA) 接收 一 个 字符 串 的 集合 。 一 个 字符 
串 是 一 个 符号 序列 。 对 于 给 定 的 字符 串 ，FSA 返回 “接收 ”或 “不 接收 ”两 种 结果 。 
将 FSA 可 视 为 无 限 个 字符 串 集 的 表示 ， 如 图 1-2 所 示 。 


图 1-2 表示 yesno 的 有 限 状 态 接收 器 


图 1-2 中 的 FSA 只 接受 字符 串 “yes” 和 “no”， 即 set{yes,no}; 圈子 中 的 数字 是 
状态 标签 (不 是 很 重要 ) ; 标签 是 在 边 上 的 符号 ; 箭头 指向 的 结 点 是 开始 结 点 ， 双 图 
结 点 表示 可 以 作为 结束 结 点 。 开 始 结 点 只 能 有 一 个 ， 而 结束 结 点 可 以 有 多 个 。 这 样 的 
图 称 为 状态 转换 图 。 

dk.brics.automaton 是 一 个 FSA 的 实现 。 使 用 它 定 义 表示 yesno 的 FSA 代码 如 下 : 


String sl = "yes"; 

String s2 = "no"; 

Automaton a= Automaton.makeSstring(s1); //yes 有 限 状 态 接 收 器 
Automaton b= Automaton.makeSstring(s2); //no 有 限 状态 接收 器 
Automaton c = BasicOperations.union(a, b); // 并 运算 

String word = "yes"; 

System.out .println(c.run (word)); 


1.9.2 FST 


有 限 状态 转换 器 (FST) 就 是 利用 有 限 状 态 机 把 输入 串 映射 成 输出 串 。 
例如 ， 判 断 二 进 制 串 的 奇偶 性 ， 状 态 转换 示意 图 如 图 1-3 所 示 。 其 中 用 两 个 状态 
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Sl 和 S2 分 别 表示 偶数 和 奇数 。 


图 1-3 ”状态 转换 示意 图 
再 如 ， 要 求 以 下 字符 串 中 “1” 的 数量 是 奇数 还 是 偶数 。 
1011001 — Sl 
0001000 — S2 
状态 转换 表 如 表 1-1 所 示 。 


表 1-1 状态 转换 表 
状 态 转 换 
sl 0— SL1l—S2 
S2 0— S21— Sl 


实现 该 有 限 状 态 转换 器 的 代码 如 下 : 


int parity(String s) { 
int state = 1; 
for(int i = 0;i< s.length();++i){ 
char ch = s.charAt (i); 
Switch (state){ 
case 1: 
if (ch=="'1"') 
state = 2; 
break; 
case 2: 
if (ch=="'1') 
state = 1; 


break; 
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} 
} 
return state; 


} 

测试 这 个 方法 ， 代 码 为 : 

System.out.print (parity("01010")); // 输 出 1 

为 了 构建 最 小 完美 散 列 ， 需 要 把 排 好 序 的 单词 {clear,clever,ear,ever,fat,father}( 见 
图 1-4) 映射 到 序号 (0, 1, 2,…) 。 当 遍历 边 时 ， 把 经 过 的 值 加 起 来 ， 例 如 “father” 在 
“f” 命 中 4 且 在 “h” 命 中 1 时 ， 输 出 5。 


图 1-4 有 限 状 态 转换 器 


1.9.3 WFST 


环 是 抽象 代数 中 使 用 的 基本 代数 结构 之 一 ， 它 由 一 个 装备 有 两 个 二 元 运算 的 集合 
组 成 。 半 环 是 与 环 相似 的 代数 结构 ， 但 不 要 求 每 个 元 素 必 须 具 有 加 法 可 逆 。 

。 求 和 : 计算 序列 的 权重 (用 该 序列 标记 的 路 径 权重 之 和 )。 

。 乘积 : 计算 路 径 的 权重 〈 构 成 转换 权重 的 乘积 ) 

常见 的 半 环 比较 如 表 1-2 所 示 。 
表 1-2 常见 的 半 环 比较 


名 称 @ ( 求 和 ) @ (乘积 ) 本 i 
Boolean 1 
Real 1 
Log -log (exp(Ca)+exp(Cb)) 0 
Tropical 5 min 0 
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别 系 


所 有 实际 应 用 都 使 用 热带 半 环 (Tropical Semiring) ， 其 最 明显 的 实例 是 在 语音 识 
统 中 假设 组 合 词语 的 负 对 数 概率 。 
以 下 是 在 jopenfst 中 使 用 热带 半 环 的 例子 。 


MutableFst 


fst = new MutableFst (TropicalSemiring.INSTANCE); 


// 用 符号 识别 状态 

fst.usestatesymbols(); 

MutableState startstate = fst.newStartState ("<start>"); 
// 设 置 最 终 权 重 让 这 个 状态 成 为 合格 的 最 终 状态 
fst.newSstate ("</s>") .setFinalWeight (0.0); 

// 可 以 将 符号 手动 添加 到 符号 表 

int symbolId = fst.getInputSymbols () .getorAdd ("<eps>"); 
fst.getOutputSymbols () .getorAdd ("<eps>"); 


// 直 接 加 边 


fst.addArc ("statel", "inA", "outA", "state2", 1.0); 


// 也 可 以 使 用 状态 实例 
fst.addArc (startstate, "inC", "outD", fst.getOrNewState("state3"), 123.0); 


1.9.4 Kaldi 对 OpenFst 的 改进 


描述 当前 实际 使 有 


Kaldi 将 OpenFst 代码 本 身 用 于 许多 算法 。Kaldi 对 OpenFst 的 改进 算法 位 于 目录 
src/fstext 中 ， 相 应 的 命令 行程 序 存在 于 fstbin/ 中 。 此 代码 使 用 了 OpenFst 库 ， 仅 在 这 里 


的 算法 。 


e Kaldi 使 用 与 OpenFst 中 的 算法 不 同 的 确定 化 算法 ， 需 要 将 其 名 称 与 函数 
DeterminizeStar() 区 分 开 来 ， 并 将 相应 的 命令 行程 序 命名 为 fstdeterminizestar。 
Kaldi 的 确定 化 算法 实际 上 比 OpenFst 中 的 确定 化 算法 更 接近 标准 FST 确定 化 


算法 ， 因 


为 它 在 确定 化 的 过 程 中 也 去 除了 epsilon (与 许多 其 他 FST 算法 一 样 ， 


Kaldi 不 认为 epsilon 是 “真实 符号 ”) 。 
。 Kaldi 提供 了 一 个 在 log 半 环 中 的 确定 化 函数 DeterminizeInLog0， 它 在 确定 化 


之 前 ， 将 正常 (热带 ) 半 环 中 的 FST 投射 到 log 半 环 ， 然 后 转换 
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e Kaldi 还 提供 一 个 名 为 RemoveEpsLocal0 的 epsilon 去 除 算 法 ， 保 证 永远 不 会 毁 
掉 FST, 但 另 一 方面 不 保证 删除 所 有 epsilons。 从 本 质 上 讲 ， 它 可 以 移 除 任何 可 
以 轻松 移 除 的 epsilons 而 不 会 使 图 形变 大 。 函 数 RemoveEpsLocal0 保 留 FST 等 
价 性 。 

。 Kaldi 使 用 OpenFst 提供 的 最 小 化 算法 , 但 是 在 编译 OpenFst 之 前 应 用 补丁 ， 以 
便 最 小 化 可 应 用 于 非 确 定性 FST。 

在 大 多 数 情况 下 ，Kaldi 使 用 OpenFst 自己 的 组 合算 法 ， 但 Kaldi 使 用 函数 
TableCompose0 和 相应 的 命令 行程 序 fsttablecompose 是 一 种 针对 某 些 常见 情况 的 更 有 
效 的 组 合算 法 。 当 与 具有 非常 高 出 度 的 词典 组 合 时 ， 使 用 TableCompose0 可 以 提高 组 
合 速 度 。 


1.10 语音 识别 语料库 


本 节 讲 解 几 个 常用 的 语音 识别 语料库 , 更 多 的 语料库 可 以 从 OpenSLR 网 站 (http:// 
www.openslr. org/) 下 载 。OpenSLR 是 一 个 致力 于 托管 语音 和 语言 资源 的 站 点 ， 例 如 用 
于 语音 识别 的 训练 语料库 和 与 语音 识别 相关 的 软件 。 


1.10.1 TIMIT 语料库 


TIMIT 语料库 有 着 准确 的 音素 标注 ， 可 以 应 用 于 语音 分 割 性 能 评价 ， 同 时 含有 几 
百 个 说 话 者 语音 ， 所 以 它 也 是 评价 说 话 者 语音 识别 常用 的 权威 语料库 。 

TIMIT 语料库 旨 在 提供 语音 数据 和 自动 语音 识别 系统 的 开发 和 评估 。TIMIT 包含 
630 个 说 话 者 的 宽带 录音 ，8 个 主要 方言 区 的 美式 英语 ， 每 个 人 阅读 10 个 语音 丰富 的 
句子 。TIMIT 语料库 包括 时 间 对 齐 的 单词 内 容 、 语 音 和 单词 转录 及 每 个 话语 的 16 位 、 
16kHz 语音 波形 文件 。 语 料 库 设 计 是 麻 省 理工 学 院 (MIT) 、 斯 坦 福 国际 研究 院 (SRI) 
和 得 州 仪器 公司 〈TI) 共同 的 努力 成 果 。 演 讲 在 得 州 仪器 公司 录制 ， 转 录 在 麻 省 理工 
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学 院 ， 并 由 美国 国家 标准 技术 研究 所 (NIST) 验证 


o 


1.10.2 LibriSpeech 语料库 


LibriSpeech 语料库 是 一 个 大 型 英语 阅读 语料库 。 来 自 LibriVox 项 目的 有 声 读物 ， 
采样 频率 为 16kHz。 该 库 的 口音 是 多 种 多 样 的 ， 没 有 标记 ， 但 大 多 数 是 美式 英语 。 
LibriSpeech 语料库 还 有 单独 准备 好 的 语言 模型 训练 数据 和 预 建 好 的 语言 模型 。 


1.10.3 ”中 文 语料库 


中 文 的 语音 识别 公共 数据 集 共 有 以 下 3 个 。 
。 gale mandarin: 中 文 新 闻 广播 数据 集 。 
e hkust: 中 文 电话 数据 集 。 

e thchs30: 清华 大 学 30 小 时 数据 集 。 

有 些 数据 集中 包含 Linux 链接 文件 。 


1.11 Linux shell 脚本 基础 


shell 是 用 户 和 Linux 内 核 之 间 的 接口 程序 ， 用 户 在 命令 行 提 示 符 下 输入 的 每 个 命 
令 都 由 shell 先 解释 后 传 给 Linux 内 核 。shell 是 一 款 命令 语言 解释 器 ， 拥有 内 置 的 shell 
命令 集 。 此 外 ，shell 也 能 被 系统 中 其 他 有 效 的 Linux 实用 程序 和 应 用 程序 所 调用 。 
shell 的 主要 功能 包括 以 下 几 个 。 
。 命令 解释 功能 : 将 用 户 可 读 的 命令 转换 成 计算 机 可 理解 的 命令 ， 并 控制 命令 
执行 。 
。 输入 /输出 重 定 向 : 操作 系统 将 键盘 作为 标准 输入 、 显 示 器 作为 标准 输出 ， 当 这 
些 定向 不 能 满足 用 户 需 求 时 ， 用 户 可 以 在 命令 中 用 符号 “>” 或 “<” 重 新 定向 。 
。 管道 处 理 : 利用 管道 将 一 条 命令 的 输出 送 入 另 一 条 命令 ， 实 现 多 条 命令 组 合 完 
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成 复杂 功能 。 

e 系统 环境 设置 : 用 shell 命令 设置 环境 变量 ， 维 护 用 户 的 工作 环境 。 

。 程序 设计 语言 : shell 命令 本 身 可 以 作为 程序 设计 语言 ， 将 多 个 shell 命令 组 合 
起 来 ， 编 写 能 实现 系统 或 用 户 所 需 功能 的 程序 。 

市 面 上 有 多 种 shell， 例 如 zshell 和 fish 等 ， 一 般 使 用 Bash 脚本 。 


1.11.1 Bash 


在 屏幕 上 打印 “Hello”: 
echo "Hello" 

将 ABC 分 配给 a: 

a=ABC 

输出 a 的 值 : 

echo $a 

此 时 ， 在 屏幕 上 打印 ABC。 
将 ABC.log 分 配给 b: 
b=$a.1og 

输出 b 的 值 : 


#echo $b 
RARABC.1og 


把 文件 “ABC.log” 的 内 容 写 入 到 testfile: 

cat $b > testfile 

指令 “--help” 会 输出 帮助 信息 。 

可 以 把 重复 执行 的 shell 脚本 写 入 到 一 个 文本 文件 。 在 Linux 中 ， 文 件 后 级 名 不 作 
为 系统 识别 文件 类 型 的 依据 ， 但 是 可 作为 用 户 识别 文件 的 依据 ， 可 以 简单 地 将 脚本 文 
件 以 .sh 结尾 。 在 Linux 下 , 可 以 通过 vi 命令 创建 一 个 诸如 script.sh 的 文件 , 即 vi scriptsh。 
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创建 脚本 文件 后 就 可 以 在 文件 内 用 脚本 语言 要 求 的 格式 编写 脚本 程序 了 。 
在 创建 的 脚本 文件 中 输入 以 下 代码 并 保存 和 退出 。 


#! /bin/bash 
echo "hello world!™" 


添加 脚本 文件 的 可 执行 运行 权限 chmod 777 scriptsh 后 ， 运 行文 件 ./script.sh 得 到 以 下 
结果 : 

hello world! 

注意 : shell 脚本 中 用 “#” 表 示 注 释 符 ， 相 当 于 C 语言 中 的 注释 符 “//”。 但 如 果 
“ 娠 ” 位 于 第 一 行 开头 ， 并 且 是 “#1” ( 称 为 Shebang ) 形式 则 例外 ， 它 表示 该 脚本 使 用 
后 面 指定 的 解释 器 /bin/sh 解释 执行 。 每 个 脚本 程序 必须 在 开头 包含 这 个 语句 。 

使 用 参数 n 检查 语法 错误 ， 例 如 : 

#bash -n ./test.sh 

如 果 shell 脚本 有 语法 错误 ， 则 会 提示 错误 所 在 行 ， 否 则 ， 不 输出 任何 信息 。 

让 语句 的 语法 格式 : 


if [ condition ] then 


commandl 
elif  # 和 else if 等 价 
then 
command2 
else 
default-command 
EL 


这 里 的 二 就 是 直 反 过 来 写 。 
为 了 判断 某 个 命令 是 否 存在 ， 可 以 使 用 如 下 的 代码 : 
if which programname >/dev/null; then 


echo exists 
else 

echo does not exist 
EA 


0 
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判断 yum 是 否 存在 ， 可 以 使 用 如 下 的 代码 : 


case 语句 的 语法 格式 : 


这 里 的 esac 就 是 case 反 过 来 写 。 
例如 : 
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这 里 使 用 “|” 把 "jpg" 和 "jpeg" 这 两 个 格式 连接 到 了 一 起 。 

下 面 介绍 4 种 模式 匹配 。 

。 $f{variable#pattern}: 从 $string 的 前 面 删除 Ssubstring 的 最 短 匹配 。 

。 ${variable##pattern}: 从 $string 的 前 面 删除 Ssubstring 的 最 长 匹配 。 
® $f{variable%pattern}: 从 $string 的 后 面 删除 $substring 的 最 短 匹 配 。 
ee $f{variable%%pattern}: 从 $string 的 后 面 删除 Ssubstring 的 最 长 匹配 。 
使 用 模式 匹配 的 例子 : 


x=/home/cam/book/long.file.name 
echo ${x#/*/} 

echo ${x##/*/} 

echo ${x%$.*} 

echo ${xX%$S.*} 


cam/book/long.file.name 


long.file.name 
/home/cam/book/long.file 
/home/cam/book/long 


1.11.2 AWK 


典型 的 AWK 程序 充当 过 滤器 ， 从 标准 输入 读 取 数 据 ， 并 输出 标准 的 过 滤 数 据 。 
它 一 次 读 取 数 据 的 一 条 记录 。 默认 情况 下 , 一 次 读 取 一 行文 本 。 每 次 读 取 记 录 时 , AWK 
自动 将 记录 分 隔 到 字段 中 。 字 段 在 默认 情况 下 也 是 由 空白 分 隔 的 。 每 个 字段 被 分 配给 
一 个 变量 ， 该 变量 有 一 个 数字 名 称 。 变 量 $0 表示 整个 记录 ，$1 表示 第 一 个 字段 ，$2 
表示 第 二 个 字段 ， 依 此 类 推 。 此 外 ， 还 设置 了 一 个 名 为 NF 的 变量 ， 其 中 包含 在 记录 
中 检测 到 的 字段 数量 。 下 面 来 试 试 一 个 很 简单 的 例子 。 

过 滤 ls 命令 的 输出 ， 有 具体 代码 如 下 : 

#13 -1 ./ | awk '{print 4$0]" 

显示 文本 文件 nohup.out 匹配 (含有) 字符 串 "sun" 的 所 有 行 ， 具 体 代 码 如 下 : 


#awk '/sun/{print}' nohup.out 
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由 于 显示 整个 记录 〈 全 行 ) 是 awk 的 缺 省 操作 ， 因 此 可 以 省 略 action 项 。 
再 如 ， 要 得 到 Python 的 版 本 号 ， 可 以 使 用 如 下 的 代码 : 


#python 2>&1 --version | awk '{print $2}"' 
A 


这 里 的 “2>&1” 的 含义 是 ， 把 标准 错误 重 定向 到 标准 输出 。 
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记录 语音 、 准 备 训练 集 是 开发 语音 识别 系统 的 基础 。 本 章 先 讲解 如 何 使 用 NAudio 
记录 语音 等 相关 内 容 。 


2.1 准备 开发 环境 


C# 代 码 可 以 运行 在 Net Framework， 也 可 以 运行 在 mono 环境 中 。 使 用 如 下 命令 安 
装 mono 的 安装 包 mono-5.4.1.6-x64-0.msi 到 d:\mono\ 目 录 下 。 

msiexec /i "mono-5.4.1.6-x64-0.msi" INSTALLFOLDER="d:\mono\" /db 

C# 开 发 环境 可 以 使 用 Visual Studio .Net， 这 里 使 用 Visual Studio 2017 社区 版 。 
Visual Studio 2017 可 以 到 微软 公司 的 网 站 https://www.visualstudio.com/downloads/ 下 载 
得 到 。 新 建 一 个 控制 台 类 型 的 解决 方案 会 自动 生成 一 个 源 代码 文件 。C 奴 原文 件 的 扩展 
名 为 cs， 如 语音 类 Audio.cs, 或 者 语音 文件 工具 类 WavFileUtils.cs。 标 识 符 的 名 称 不 能 
随便 改 , 因为 可 能 有 很 多 地 方 用 到 同一 个 标识 符 。Visual Studio 支持 通过 重 构 重 命名 标 
识 符 。 例如， 要 修改 一 个 变量 的 名 称 ， 只 需要 将 光标 放 在 变量 的 名 称 上 面 , 然后 从 “ 重 
构 ” 菜 单 中 选择 “ 重 命名 ”命令 ， 在 弹出 的 对 话 框 中 输入 变量 的 新 名 称 。 
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2.2 计算 卷 积 
语音 信号 可 以 使 用 一 维 卷 积 来 处 理 。 把 输入 向 量 用 .表示 ， 卷 积 核 用 g， 并 且 假设 
j 的 长度 为 m，8g 的 长 度 为 m， 则 和 g 的 卷 积 f*g 定义 为 : 
Ua-Es0)x/ (1+ 


特殊 地 ， 如 果 卷 积 核 的 长 度 为 1， 而 且 值 也 为 1， 则 了 *g=f。 
一 维 卷 积 实现 代码 如 下 : 


测试 这 个 方法 : 


47. 


深 


度 * 
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Console.WriteLine (string.Join(", ", output)); 


输出 卷 积 结果 : 


2 3 


2.3 ”记录 话音 


使 


NAudio 可 以 捕获 进入 计算 机 的 话 简 (或 线路 输入 ) 的 声音 ,并 将 捕获 的 声音 


录制 到 WAYV 文件 中 。 用 WaveIn 可 以 在 WinForms 应 用 程序 中 录制 WAV 文件 。 在 下 
面 这 个 例子 中 , 将 看 到 如 何 创建 一 个 非常 简单 的 WinForms 应 用 程序 , 将 音频 记录 到 WAV 
文件 。 


选择 录制 音频 的 位 置 。 音 频 将 被 记录 到 桌面 上 NAudio 文件 夹 中 名 为 recorded.wav 


的 文件 中 。 


Var outputFolder = 
Path.Combine (Environment .GetFolderPath (Environment .SpecialFolder.Desktop), 


"NAudio"); 


Directory.CreateDirectory (outputFolder); 
Var outputFilePath = Path.Combine (outputFolder, "recorded.wav"); 


创建 录制 设备 。 在 这 里 , 将 使 用 WaveInEvent, 也 可 以 使 用 WaveIn 或 WasapiCapture。 
var waveIn = new WaveInEvent (); 

声明 WaveFileWriter， 但 直到 开始 录制 时 ， 才 会 创建 它 。 

WaveFileWriter writer = null; 


设置 窗口 。 它 有 两 个 按钮 一 一 开始 按钮 和 停止 录制 按钮 。 声 明 一 个 关闭 标志 ， 以 


便 在 窗口 关闭 时 停止 录制 。 
bool closing = false; // 关 闭 标志 
var 上 = new Form(); // 窗 口 


Var buttonRecord = new Button() { Text = "Record" }; // 开 始 按钮 
Var buttonStop = new Button() { Text = "Stop", Left = buttonRecord.Right, 


Enabled = false }; // 停 止 录制 按钮 
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f.Controls.AddRange (new Control[] { buttonRecord, buttonstop }); 

我 们 需要 一 些 事件 处 理 器 。 当 单 击 开始 按钮 时 ， 将 创建 一 个 新 的 WaveFileWriter， 
指定 要 创建 的 WAYV 文件 的 路 径 及 录制 的 格式 。 录 制 格式 必须 与 录制 设备 格式 相同 。 
因此 ， 我 们 使 用 waveIm.WaveFormat。 然 后 ， 使 用 waveIm.StartRecording0 开 始 进行 录 
制 ， 并 适当 地 设置 按钮 启用 状态 。 


buttonRecord.Click += (s, a) => 
{ 


writer = new WaveFileWriter (outputFilePath, waveIn.WaveFormat); 
waveIn.StartRecording (); 


buttonRecord.Enabled = false; 
buttonstop.Enabled = true; 
的 


还 需要 处 理 器 来 处 理 输 入 设备 上 的 DataAvailable 事件 。 开 始 录制 后 ， 会 定期 触发 
该 事件 。 可 以 将 事件 参数 中 的 缓冲 区 写 入 writer， 并 确保 写 入 了 a.BytesRecorded 字 节 ， 
而 不 是 a.Buffer.Length。 

waveIn.DataAvailable += (s, a) => 

{ 

writer.Write (a.Buffer, 0, a.BytesRecorded); 

] 7 

录制 WAV 文件 时 经 常 添加 的 一 项 安全 功能 是 限制 WAV 文件 的 大 小 。 这 个 文件 
的 容量 迅速 变 大 ， 但 是 无 论 如 何 ， 都 不 能 超过 4GB。 在 这 里 ， 设 置 30s 后 会 停止 录制 。 

waveIn.DataAvailable += (s, a) => 

{ 


writer.Write (a.Buffer, 0, a.BytesRecorded); 


if (writer.Position > waveIn.WaveFormat.AverageBytesPerSecond * 30) 
和 


wavVeIn.StopRecording (); 


1 


处 理 停止 录制 按钮 。 这 很 简单 ， 只 需要 调用 waveIn.StopRecording0。 但 是 ， 仍 然 可 以 
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在 DataAvailable 回调 中 接收 更 多 数据 ， 因 此 请 不 要 处 理 WaveFileWriter。 
buttonStop.Click += (s, a) => waveIn.StopRecording () 7 
还 将 添加 一 项 安全 措施 ， 如 果 在 录制 过 程 中 尝试 关闭 窗口 ， 则 会 调用 StopRecording0 
并 设置 一 个 标记 ， 以 便 知道 ， 也 可 以 处 理 输入 设备 。 
£f.FormClosing += (s, a) => { closing=true; waveIn.stopRecording(); }; 
为 了 安全 地 处 理 WaveFileWriter (需要 做 的 是 生成 一 个 有 效 的 WAYV 文件 ) ， 应 该 
在 录制 设备 上 处 理 RecordingStopped 事件 。 处理 WaveFileWriter， 以 便 它 修复 WAV 文 
件 中 的 头 信 息 ， 以 使 其 有 效 。 然 后 ， 设 置 按钮 状态 。 最 后 ， 如 果 正 在 关闭 窗口 ， 则 应 
该 处 理 输入 设备 。 


waveIn.RecordingStopped += (s, a) => 
{ 


writer?.Dispose(); 

writer = null; 

buttonRecord.Enabled = true; 

buttonstop.Enabled = false; 

if (closing) 
waveIn.Dispose(); 


}; 

所 有 的 处 理 器 都 已 设置 好 了 ， 下 面 我 们 准备 显示 对 话 框 。 
f.sShowDialog (); 

完整 的 程序 代码 如 下 : 

var outputFolder = 


Path.Combine (Environment .GetFolderPath (Environment .SpecialFolder.Desktop), 
"NAudio"); 
Directory.CreateDirectory (outputFolder); 
Var outputFilePath = Path.Combine (outputFolder, "recorded.wav"); 
Var waveIn = new WaveInEvent (); 


WaveFileWriter writer = null; 


»* S50°* 
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2.4 读 入 语音 信号 


声音 经 过 模拟 设备 记录 或 再 生成 为 模拟 音频 ， 再 经 数字 化 成 为 数字 音频 。PCM 
(Pulse Code Modulation， 脉 冲 编码 调制 ) 文件 是 模拟 音频 信号 经 模 - 数 转换 直接 形成 的 
二 进 制 序列 。 

PCM 流 具 有 两 个 基本 属性 来 确定 流 对 原始 模拟 信号 的 保 真 度 一 一 采样 率 ， 即 每 秒 
取样 的 次 数 及 确定 可 用 于 表示 每 个 样本 可 能 数字 值 数 量 的 比特 深度 。 大 多 数 存储 的 未 
压缩 音频 是 16 位 。 其 他 位 深度 ， 如 8 和 24 也 是 常见 的 ， 并 且 存 在 许多 其 他 位 深度 。 

数字 化 时 的 采样 率 必须 高 于 信号 带宽 的 两 倍 ， 才 能 正确 恢复 信号 。1Hz 代表 每 秒 
钟 采样 1 次 。 声 音 采样 频率 一 般 为 8kHz， 也 就 是 每 秒 采样 8000 次 。 人 们 能 够 听见 的 
音频 频率 范围 为 60Hz 一 20kHz， 其 中 语音 分 布 在 300Hz 一 4kHz 内 ， 而 音乐 和 其 他 自然 
声音 是 全 范围 分 布 的 。 识 别 语音 的 最 小 频率 范围 为 300Hz 一 4kHz。 

由 于 16 位 深度 很 常见 ， 所 以 以 此 为 例 来 了 解数 据 是 如 何 格式 化 的 。 通 常 将 16 位 
音频 存储 为 打包 的 16 位 有 符号 整数 。 整 数 可 能 是 big-endian (最 常见 的 是 AIFF) 或 
little-endian〈 最 常见 的 是 WAV) 。 如 果 有 多 个 通道 ， 通 道 间 通常 是 交错 的 。 例 如 ， 在 
立体 声音 频 中 ， 有 一 个 表示 左 声 道 的 16 位 整数 ， 后 面 跟着 一 个 代表 右 声 道 的 16 位 整 
数 。 这 两 个 样本 代表 同一 时 间 ， 两 者 一 起 有 时 称 为 采样 帧 或 简单 称 为 帧 。short 数据 类 
型 表示 16 位 有 符号 整数 。 因 此 ， 要 读 取 原 始 16 位 数据 ， 通 常 需要 将 数据 定义 为 一 个 
short 类 型 的 数组 。 

例如 ， 有 一 个 WAV 文件 (16 位 PCM: 44kHz 两 通道 ) ， 现 为 两 个 通道 中 的 每 一 
个 提取 采样 到 两 个 short 类 型 的 数组 。 

using (WaveFileReader pcm = new WaveFileReader (@"file.wav")) 

| int samplesDesired = 5000; 

byte[] buffer = new byte[samplesDesired * 4]; 
short[] left = new short[samplesDesired]; // 左 声 道 数组 


short[] right = new short[samplesDesired]; // 右 声 道 数组 
int bytesRead = pcm.Read (buffer, 0, 10000); 
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为 了 方便 后 续 处 理 ， 可 以 将 数据 归 一 化 成 为 -1 一 1 的 浮 点 数 。 一 般 的 语音 文件 为 
16 位 深度 ， 也 就 是 -1 一 1 对 应 -32 768 一 32 767 的 整数 。 


2.5 ”离散 传 里 叶 变 换 


本 节 计 算 给 定 复数 向 量 的 离散 傅 里 叶 变 换 (DFT)。 因 为 要 用 到 System.Numerics.dll 
中 的 Complex 结构 ， 所 以 在 项 目 中 增加 对 System.Numerics 的 引用 。 实 现代 码 如 下 : 


输入 是 普通 数值 的 实现 代码 如 下 : 
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2.6 移 除 静音 


用 户 可 以 从 WAYV 文件 中 的 开始 和 结束 部 分 移 除 指定 时 间 长 度 的 音频 段 。 例 如 ， 
如 果 音 频 文 件 播放 时 长 为 lmin, 用 户 想 要 将 该 文件 修剪 成 从 20s 一 40s 并 保存 成 新 文件 ， 
实现 代码 如 下 : 


Er 


检测 音频 文件 中 的 静音 ， 以 便 随后 报告 或 截断 。 
以 下 为 AudioFileReader 类 写 了 一 个 扩展 方法 , 该 方法 返回 文件 开始 /结尾 处 的 静音 

持续 时 间 。 

static class RudiofilekeaderExt 
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设置 可 接受 几乎 任意 格式 的 音频 文件 , 而 不 仅仅 是 .wav 格式 文件 , 实现 代码 如 下 : 


Eg 


Per| 开发 语音 识别 


本 章 结合 Kaldi 中 的 相关 代码 来 讲解 Perl 基本 语法 。 


3.1 变量 


Perl 中 的 变量 不 用 声明 ， 可 以 直接 使 用 。 但 是 声明 变量 有 助 于 查 错 ， 是 一 种 良好 的 
编程 习惯 。Perl 中 有 3 种 变量 用 不 同 的 前 绥 区 分 。 

。 $: 标注 标量 。 标 量 又 有 数字 、 字 符 串 等 类 型 ， 但 这 些 类 型 可 以 自动 互相 转换 。 

。 @: 标注 数组 。 

。 %: 标注 hash， 又 称 关联 数组 。 

数组 的 例子 : 


@ARGV < 2 && die "usage: run.pl 1og-file command-line arguments..."; 


3.1.1 数字 
数字 是 一 种 标量 ， 所 以 数字 类 型 的 变量 以 “$” 开 头 。 例 如 : 


$jobstart = 1; 


比较 数字 是 否 相 等 : 


$val == 2 
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整数 转换 成 字符 串 : 


浮 点 数 转 换 成 整数 :; 


浮 点 数 转换 成 字符 串 : 


只 
i 
和 村 
车 
册 


字符 串 可 以 使 用 单 引 号 或 双 引 号 表示 。 例 如 : 


单 引号 形式 只 会 按照 原样 输出 字符 串 ， 不 会 考虑 其 中 的 变量 、 转 义 符 等 情况 ， 双 
引号 形式 则 会 解析 其 中 的 变量 。 例 如 ， 打 印 出 字符 串 变量 的 内 容 : 


输出 : 


打印 出 数字 变量 的 内 容 : 


用 点 号 连接 字符 串 : 


如 下 代码 : 


等 价 于 : 
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连接 传递 过 去 的 多 个 参数 : 
print(Hello "sworld no Hellowrld 

Perl 还 提供 了 两 个 函数 a 和 qq 引用 字符 串 。q0 函 数 的 功能 和 单 引号 类 似 ，qq0 函 
数 的 功能 和 双 引号 类 似 。 这 两 个 函数 的 主要 目的 是 使 用 户 不 用 转 义 符 就 能 在 字符 串 中 
使 用 单 / 双 引 号 。 


3.1.3 数组 
定义 一 个 数组 并 打印 其 中 的 元 素 。 


使 用 scalar() 方 法 返回 数组 大 小 。 


3.1.4” 散 列表 


声明 一 个 散 列表 : 
和 昌 上 旺 
60 
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给 散 列表 赋 初 始 值 : 


使 用 Data:Dumper 检查 其 中 的 内 容 。 


当 数 据 结构 有 好 几 个 层次 时 ， 以 下 的 设置 可 以 使 输出 更 紧凑 ， 可 读 性 更 高 。 


使 用 keysO 函 数 返 回 一 个 键 值 的 数组 。 


使 用 eachO 函 数 返 回 一 个 “关键 字 - 值 ”对 。 随 后 的 调用 返回 剩 下 的 “关键 字 - 值 ” 
对 ， 可 用 该 函数 来 遍历 散 列表 。 
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} 
使 用 deleteO 函 数 从 散 列 表 删 除 一 个 “关键 字 - 值 ”对 ， 返 回 被 删除 元 素 的 值 。 


$ranks{"UCLA"} = 1; 

$ranks{"OSU"} = 2; 

$x = delete $ranks{"UCLA"}; # 现 在 sranks 仅 剩 一 个 "关键 字 - 值 "对 了 
EN SEE 时 于 


使 用 exists0 函 数 判断 该 元 素 是 否 已 被 删除 。 


$ranks{"UCLA"} = 17 
$ranks{"OSU"} = 2; 
print ("存在 \n") if exists $ranks{"UCLA"}; # 打 印 出 "存在 " 


3.2 ”多维 数组 


创建 数组 : 


Sabc= Uh OD Ole 


使 用 数组 : 


$var=$abc->[1] [1]; 
Print ($var); # 打 印 出 “11” 


这 里 的 $abc 是 一 个 引用 。 


3.3 常量 


使 用 constant 编译 指示 允许 定义 的 常量 。 例 如 ， 声 明 一 个 标量 常量 : 
use constant PI => 4 * atan2(1, 1); 
声明 一 个 列表 常量 : 


use constant WEEKDAYS => qw( 
Sunday Monday Tuesday Wednesday Thursday Friday Saturday 


a 
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); 
使 用 时 必须 加 括号 : 
print "Today is", (WEEKDAYS)[ 1 ], ".\n™; 
声明 一 个 散 列 常量 : 
use constant WEEKABBR =>{ 
Monday => 'Mon', 
Tuesday => "Tue'， 
Wednesday => 'Wed', 
Thu => 'Thursday', 
Fri => "Friday') 


使 用 举例 如 下 : 

Sabbr = WEEKABBR; 

$day = 'Wednesday'; 

print "The abbrevaiation for $day is ", $abbr{$day}; 


ee 


3.4 操作 符 


Perl 中 的 操作 符 细 分 ， 可 分 为 赋值 操作 符 、 算 术 操作 符 、 字 符 操作 符 、 比 较 操作 


把 右边 表达 式 的 值 赋予 左边 变量 : 


$x = 'value'; 


符 、 位 操作 符 、 逻 辑 操作 符 、 组 合 赋值 操作 符 、 递 增 和 递减 操作 符 、 正 则 表达 式 操作 
符 、 逗 号 操作 符 和 关系 操作 符 、 引 用 操作 符 和 访问 引用 操作 符 、 箭 头 操作 符 、 范 围 操 
作 符 、 三 元 操作 符 、 文 件 操作 符 、 命 令 操 作 符 。 其 中 正则 表达 式 操 作 符 、 文 件 操作 符 
和 命令 操作 符 将 在 后 面 专门 讲解 。 


上 述 语句 中 ，x 表示 赋值 操作 符 左 边 的 实体 。x 必须 为 变量 ， 可 以 给 它 分 配 值 。 但 


不 能 向 字符 串 赋值 ， 如 "constant"=132 这 个 语句 就 是 错误 的 ， 因为 常量 字符 串 "constant" 
不 能 作为 变量 名 。 


Perl 中 的 字符 串 操 作 符 包括 连接 操作 符 “.” 和 复制 操作 符 “x”。 


QD 连接 操作 符 “.” 相 当 于 字符 串 间 的 加 号 。 
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$example = 'Hello '. "World'7 

但 是 ， 如 果实 际 使 用 语句 为 : 

$example = "Hello '+'World'; 
返回 的 结果 将 是 0。 因 为 该 语句 执行 的 是 整 型 运算 ， 相 加 的 字符 串 会 被 转换 成 整数 0， 
再 相 加 。 

@ 复 制 操作 符 “x? 左边 是 一 个 字符 串 或 一 个 列表 , 右边 代表 左边 元 素 复 制 的 次 数 。 
例如 : 


$example = "\t" x 8; 
array = (172734;5) x 27 4# Barray 三 ( 工 :27 3 57 7 22773757 


最 简单 、 最 常用 的 比较 操作 符 多 用 于 测试 一 个 值 是 否 等 于 另 一 个 值 。 如 果 值 相等 ， 
则 测试 返回 rue; 如 果 值 不 相等 ， 则 测试 返回 false。 数 字 和 字符 串 有 不 同 的 比较 操作 符 。 
测试 两 个 数值 的 相等 性 ， 可 以 使 用 比较 操作 符 “==”。 测 试 两 个 字符 串 值 的 相等 性 ， 
可 以 使 用 比较 操作 符 eq(EQual)。 

以 下 是 两 个 例子 。 


if (5 == 5) { print "== for numeric values\n"; } 


if ('moe' eq 'moe') { print "eq (EQual) for string values\n"; } 
数字 和 字符 串 的 比较 操作 符 如 表 3-1 所 示 。 
表 3-1 数字 和 字符 串 的 比较 操作 符 及 说 明 


数字 比较 操作 符 | 字符 串 比 较 操作 符 说 有明 

< 1t 小 于 

> gt 大于 

一 等 于 

一 le 小 于 或 等 于 

>= ge 大 于 或 等 于 

上 = ne 不 等 于 

es lp 比较 两 个 值 的 大 小 。 当 两 个 值 相等 时 ， 返回 0， 当 第 一 个 值 
大 时 ， 返 回 1; 当 第 二 个 值 大 时 ， 返 回 -1 
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组 合 操 作 符 如 表 3-2 所 示 。 
表 3-2 组 合 操作 符 的 类 型 及 说 明 


操 作 符 操作 符 类 型 说 明 
二 算术 操作 符 相 加 并 赋值 。$x += $Sy; 等 价 于 $x= $x + $y; 
= 算术 操作 符 相 减 并 赋值 。$x 一 $y; 等 价 于 $x = $x-$y; 
“和 算术 操作 符 相 乘 并 赋值 。$x *= $y; 等 价 于 $x = $x * $y; 
广 算术 操作 符 相 除 并 赋值 。$x 三 Sy， 等 价 于 Sx = $x/ Sy; 
%= 算术 操作 符 取 余 并 赋值 。$x %= $y; 等 价 于 $x= $x % $y; 
站 # 一 算术 操作 符 乘 寡 并 赋值 。$x **= $y; 等 价 于 $x = $x ** $y; 
= 字符 串 操作 符 重复 并 赋值 。$x x= 3; 等 价 于 $x= Sxx3; 
= 字符 串 操作 符 连接 并 赋值 。$x = $y; 等 价 于 $x = 8x. $y; 
<<= 移 位 操作 符 左 移 并 赋值 。$x <<= $y; 等 价 于 $x= $x << $y; 
>>= 移 位 操作 符 右 移 并 赋值 。$x <<= $y; 等 价 于 $x = $x << $y; 
SC& 逻辑 操作 符 逻辑 与 并 赋值 。$x &&= $y; 等 价 于 $x = $x && $y; 
加 逻辑 操作 符 逻辑 或 并 赋值 。Sx |= Sy; 等 价 于 $x= $x|| $y; 
加 位 操作 符 位 或 并 赋值 。$x 上 $y; 等 价 于 $x= $x | $y; 
&= 位 操作 符 位 与 并 赋值 。$x &= $y; 等 价 于 $x= Sx & $y; 
es 位 操作 符 位 异 或 并 赋值 。$x ^ $y; 等 价 于 $x= $x 人 ^ $y; 


尝试 用 下 面 的 例子 来 理解 Perl 中 可 用 的 所 有 赋值 操作 符 。 


#!/usr/local/bin/perl 

$a = 10; 

$b = 20; 

print "Value of \$a = $a and value of \$b = $b\n"; 
$c = $a + $b; 

print "After assignment value of \$c = $c\n"; 


$c += $a; 
print "Value of \$c = $c after statement \$c += \$a\n™; 
$c =— $an 
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print "Value of \$c = $c after statement \$c -= \$a\n"7 
$c *= $a7 

print "Value of \$c = $c after statement \$c *= \$a\n™; 
$c /= $a; 

print "Value of \$c = $c after statement \$c /= \$a\n"; 
$c $= $a; 

print "Value of \$c = $c after statement \$c $= \$a\n"; 
$C = 23 

$a= 4; 

print "Value of \$a = $a and value of \$c = $c\n"; 

$C **= $a7 

print "Value of \$c = $c after statement \$c **= \$a\n"; 


执行 上 面 的 代码 会 产生 以 下 结果 : 


Value of $a = 10 and value of $b = 20 
After assignment value of $c = 30 

Value of $c = 40 after statement $c += $a 
Value of $c = 30 after statement $c -= $a 
Value of $c 300 after statement $c *= $a 
Value of $c = 30 after statement $c /= $a 
Value of $c = 0 after statement $c $= $a 


Value of $a = 4 and value of $c = 2 
Value of $c = 16 after statement $c **= $a 


3.5 ”控制 流 


for 语句 是 能 够 实现 自动 增加 循环 变量 的 循环 结构 。 它 的 语法 结构 如 下 : 


for (初始 化 表达 式 ; 测试 表达 式 ; 增加 循环 变量 ) 
{代码 块 } 


当 Perl 遇 到 一 个 for 循环 时 ， 执 行 顺序 如 下 。 

e 初始 化 表达 式 被 计算 。 

e 测试 表达 式 被 计算 。 如 果 它 的 计算 结果 为 真 ， 代 码 块 就 运行 。 

。 当 该 代码 块 执行 结束 后 ， 便 执行 递增 操作 ， 并 再 次 计算 测试 表达 式 。 如 果 该 测 
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试 表达 式 的 计算 结果 仍然 为 真 ， 那 么 代码 块 再 次 运行 。 这 个 进程 将 继续 下 去 ， 
直到 测试 表达 式 的 计算 结果 为 假 为 止 。 
示例 代码 如 下 : 


3.6 文件 与 目录 


Perl 程序 是 通过 文件 句柄 来 进行 IO 操作 的 。 特 别 地 ，Perl 提供 了 默认 的 文件 句柄 
STDIN (代表 标准 输入 ) 、STDOUT (代表 标准 输出 ) 和 STDERR (代表 标准 错误 输 
出 ) 。STDERR 输出 错误 信息 的 语句 如 下 : 


写 文件 的 例子 ， 实 现代 码 如 下 : 
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例 程 (Subroutine) 又 称 函 数 ， 是 结构 化 程序 设计 的 基础 。 它 接受 多 个 输入 参数 ， 
返回 一 个 输出 参数 。 
定义 语法 : 


用 以 下 语句 定义 一 个 简单 的 函数 ， 然 后 调用 它 。 因 为 Perl 在 执行 程序 前 会 先 编译 
程序 ， 所 以 声明 例 程 的 位 置 并 不 重要 。 


当 上 述 的 程序 执行 后 ， 会 输出 以 下 结果 。 


传递 参数 给 例 程 是 通过 特殊 变量 “@_” 完 成 的 。 例 如 : 
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以 下 是 通过 shift0 函 数 访 问 输 入 参数 的 例子 。 
sub Logger ($) 


| 
$line = shift; 
print "$line\n"; 


3.8 ”执行 命令 


执行 操作 系统 命令 常用 的 方法 是 调用 system0 函 数 和 用 反 小 点 引号 操作 符 qx。 以 
下 是 使 用 system0) 函 数 的 例子 。 

my $ret = system($cmd); 

if ($ret!=0 ) 


{ 
die "error during execute $cmd\n extend error=$^E \nerrorno=$!\n "; 


} 
打开 日 志文 件 ， 并 把 结果 输出 到 文件 中 。 


$logfile = "test.txt"; 
open(F, ">$logfile") || die "run.pl: Error opening log file $logfile"; 
print F "#Started at " . 'date'; 


3.9 正则 表达 式 


正则 表达 式 是 一 个 描述 模式 〈pattern) 的 字符 串 。 在 Perl 中 ， 正 则 表达 式 用 来 查 
找 / 蔡 换 字符 串 、 提 取 字 符 串 中 想 要 的 部 分 等 。 


3.9.1 基本 类 型 
最 简单 的 正则 表达 式 是 匹配 一 个 单词 ， 例 如 : 
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"Hello World" =~ /World/; 匹配 上 了 


这 里 “"Hello World"” 是 一 个 字符 串 ; “World” 是 正则 表达 式 ， 而 “/World/” 是 
为 了 告知 Perl 匹配 搜索 字符 串 ; 操作 符 “=~” 连 接 字 符 串 和 正则 表达 式 匹配 。 如 果 正 则 
表达 式 匹 配 成 功 ， 整 个 表达 式 返回 rue， 否则 返回 lse。 在 这 个 例子 中 ,“World”[ 匹 配 
上 了 字符 串 “"Hello World"”， 因 此 表达 式 返 回 值 为 tue。 如 同 下 例 这 样 可 以 把 该 表达 
式 用 在 这 条 件 判 断 中 。 


if ("Hello World" =~ /World/) { 
print "It matches\n"; 
} 
else 
{ 
print "It doesn't match\n"; 
} 


3.9.2 ”正则 表达 式 模 式 


模式 字符 串 中 存在 一 些 特殊 的 字符 串 。 下 面 逐 一 讲解 这 些 字符 串 。 
“^” 匹 配 字符 串 的 开始 《或 匹配 行 的 开始 ， 如 果 使 用 “mm”) 。 例 如 : 
$yar =~ S/SNST//S # 左 边 的 trim 

“$” 匹 配 字符 串 的 结束 〈 或 匹配 行 的 结束 ， 如 果 使 用 “/m”) 。 例 如 : 
$var =~ S/N\S+$//; ”# 右 边 的 trim 

转 义 字符 “\” 用 来 转 义 随后 的 一 个 字符 。“\$” 不 再 代表 结束 符 ， 而 代表 “$”。 
例如 ， 模 式 : 

/a\.b/ 

匹配 : 

"proga.bat™" 

不 匹配 : 


ma. .bm 
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转 义 字符 及 说 明 如 表 3-3 所 示 。 
表 3-3 转 义 字符 表 


转 义 字符 说 明 说 明 
At tab 十 六 进 制 数字 符 
an 新 行 控制 字符 
Yr 回 车 小 写 下 一 个 字符 
¥f 进 纸 大 写 下 一 个 字符 
\a 警告 小 写 一 直到 \E 
\e Esc 大 写 一 直到 \E 
\033 八进制 数字 符 结束 大 小 写 修改 


“.” 匹 配 任 何 单个 字符 ， 除 了 一 个 新 行 ( 除 非 使 用 了 “/s”》。 
例如 ， 模 式 : 

ye ed 

匹配 : 

"this is fun" 

不 匹配 : 

"nothing beyond the f" 

“*”[ 匹 配 前 面 的 元 素 0 次 或 多 次 。 

$a=" (12) 34 (56) 78 (90) abcn; 


$a=~s/\(.*\)//g; 
print"$a\n";  # 输 出 abc 


默认 情况 下 “*” 是 贫 禁 的 。 要 让 它 不 贫 禁 ， 需 要 在 后 面 加 上 “?”。 


$a=" (12)34(56)78 (90)abc"; 
$a=~s/N(S*2N)//g; 
print"$a\n"; # 输 出 3478abc 


yd 
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“+” 匹 配 前 面 的 元 素 1 次 或 多 次 。 例 如 ，“Ad+/” 匹 配 一 个 无 符号 整数 。 和 “*” 
一 样 ， 默 认 情 况 下 “+” 是 贪 禁 的。 要 让 它 不 贪 禁 ， 需 要 在 后 面 加 上 “?”。 
“2?” 匹 配 前 面 的 元 素 0 次 或 1 次 。 特 殊 地 ，“?” 可 以 用 来 修饰 “*”。 


3.10 ”命令 行 参 数 


使 用 use warmings: 可 帮助 用 户 发 现 程序 中 的 输入 错误 ， 例 如 少 输入 了 分 号 、 使 用 
'elseif' 而 不 是 使 用 'elsif'， 或 者 正在 使 用 废弃 的 语法 、 函 数 。 注 意 : 使 用 警告 只 会 提供 
告 并 继续 执行 ， 即 不 会 中 止 执行 。 
除了 使 用 warnings 以 外 ， 也 可 以 使 用 -w。 但 是 它们 的 作用 范围 不 一 样 。 
。 warnings 起 作用 的 范围 是 包含 它 的 块 ， 而 -w 的 作用 范围 却 是 全 局 的 。 
e 使 用 warnings 可 以 有 选择 地 打开 某 些 警告 ， 或 是 有 选择 地 关闭 某 些 警 告 ， 但 使 
用 -w 要 么 是 打开 所 有 可 选 的 警告 ， 要 么 是 根本 没有 可 选 的 警告 。 推 荐 使 用 use 


Warnings;。 
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从 Python 官方 网 站 (https://www.python.org/downloads/) 下载 操作 系统 对 应 的 安 
装 包 ， 在 同一 台 计 算 机 上 安装 Python 的 多 个 版 本 。 为 了 配合 Kaldi 的 开发 ， 可 以 安装 
Python 2.7 和 Python 3.6 两 个 版 本 ， 并 且 把 Python 2.7 作为 默认 版 本 。 


4.1 Windows 操作 系统 下 安装 Python 


在 图 形 化 用 户 界面 出 现 前 ， 人 们 就 是 用 命令 行 来 操作 计算 机 的 。Windows 命令 行 
是 通过 Windows 操作 系统 目录 下 的 cmd.exe 执行 的 。 执 行 该 程序 最 直接 的 方式 是 找到 
该 程序 ， 然 后 双击 。 但 cmd.exe 并 没有 一 个 桌面 的 快捷 方式 ， 操 作 起 来 太 麻烦 。 我 们 
需要 在 “开始 ”菜单 的 “运行 ”窗口 中 直接 输入 程序 名 ， 按 Enter 键 后 运行 该 程序 。 选 
择 “ 开 始 ” 一 “运行 ”命令 ,或 按 Windows+R 组 合 键 ， 这 样 就 会 打开 资源 管理 器 中 的 
“运行 ”窗口 。 总 之 ， 输 入 程序 名 “cmd” 后 单 击 “ 确 定 ” 按 钮 ， 出 现 命令 提示 窗口 。 
因为 能 够 通过 这 个 黑屏 的 窗口 直接 输入 命令 来 控制 计算 机 ， 所 以 该 窗口 也 称 为 控制 台 
窗口 。 
正如 公园 的 地 图 上 往往 会 标 出 游客 的 当前 位 置 一 样 ，Windows 命令 行 也 有 个 当前 路 
径 的 概念 。C:\Users\Administrator 就 是 当前 路 径 。 用 cd 命令 可 以 改变 当前 路 径 ， 例 如 改 
变 到 Ci\Python\Python27 路 径 ， 可 以 使 用 如 下 命令 。 
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C:\Users\Administrator>cd C:\Python\Python27 

如 果 输 入 “cd d:”， 这 样 是 改变 当前 路 径 到 D: 根 目录 。 所 以 切换 盘 符 不 能 使 用 cd 
命令 ， 而 是 直接 输入 盘 符 的 名 称 。 例 如 想 要 切换 到 D 盘 ， 可 以 使 用 如 下 命令 。 

C:\Users\Administrator>d: 

系统 约定 从 指定 的 路 径 找 可 执行 文件 。 这 个 路 径 通 过 PATH 环境 变量 指定 。 环 境 
变量 是 一 个 “变量 名 = 变量 值 ”的 对 应 关系 ， 每 一 个 变量 都 有 一 个 或 者 个 值 与 之 对 应 。 
如 果 是 多 个 值 ， 则 这 些 值 之 间 用 “;” 分 开 。 例 如 ，PATH 环境 变量 可 能 对 应 值 为 
“Ci\Windows\system32;C:\Windows”， 表 示 Windows 会 从 C:\Windows\system32 和 
CNWindows 两 个 路 径 找 可 执行 文件 。 

设置 或 修改 环境 变量 的 具体 操作 步骤 : 首先 在 Windows 桌面 上 用 鼠标 右键 单 击 
“我 的 电脑 ”图 标 ， 选 择 “ 属 性 ”一 “高 级 ”一 “环境 变量 ”， 然 后 设置 用 户 变量 或 系 
统 变 量 ， 再 设置 环境 变量 PATH 的 值 。 

注意 : 如 果 是 用 Windows 2008 以 后 的 操作 系统 ， 可 能 找 不 到 “我 的 电脑 ”这 样 的 
快捷 图 标 。 其 实 打 开 桌面 上 的 “我 的 电脑 ”就 是 运行 资源 管理 器 。 打 开 资 源 管 理 器 的 
另 一 种 方法 是 : 按 住 键盘 上 的 Windows 键 不 放 ， 再 按 卫 键 。 

需要 重新 启动 命令 行 才能 让 环境 变量 设置 生效 。 为 了 检查 环境 变量 是 否 设置 正确 ， 
可 以 在 命令 行 中 显示 指定 环境 变量 的 值 ， 需 要 用 到 echo 命令 。echo 命令 用 来 显示 一 段 
文字 : 

C:\Users\Administrator>echo Hello 

执行 上 述 命 令 将 在 命令 行 输 出 : Hello。 

如 果 要 引用 环境 变量 的 值 ， 可 以 用 前 后 两 个 百 分 号 把 变量 名 包围 起 来 ， 即 “% 变 
量 名 %”。echo 命令 用 来 显示 一 个 环境 变量 中 的 值 : 

C:\Users\Administrator>echo %PATHS 

此 外 ， 也 可 以 在 命令 行 直接 输入 “PATH” 来 显示 这 个 环境 变量 的 值 。 

假设 把 Python 安装 在 D:\Python\Python27 目录 下 ， 则 可 以 在 计算 机 属性 中 手工 设 
置 PATH 环境 变量 ， 然 后 检查 环境 变量 的 值 : 


yp 
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C:\Users\Administrator.PC-201509301458>echo %PATHS 
C:\Windows\system32;C:\Windows;C:\Windows\System32\Wbem;C:\Windows\Syste 
m32\WindowsPowershell\v1.0\;D:\apache-maven-3.5.2\bin;D:\Python\Python27 


使 用 SETX 命令 设置 环境 变量 。 用 SETX 命令 设置 的 环境 变量 可 以 保证 重启 后 一 
样 有 用 。 这 里 增加 Python 的 安装 目录 到 PATH 环境 变量 : 

SETX PATH "%PATH®;D:\Python\Python27" 

更 专业 的 方式 是 开发 一 个 软件 包 管理 工具 , 可 以 直接 输入 安装 包 的 名 称 来 安装 它 。 

以 下 命令 检查 Python 是 否 正确 安装 ， 以 及 所 使 用 的 版 本 号 。 


>python -version 


4.2 Linux 操作 系统 下 安装 Python 


检查 Python 3 是 否 已 经 正确 安装 及 其 版 本 号 : 


#python 3 -Vv 
Python 3.4.5 


检查 Python 3 所 在 的 路 径 : 


#which python 3 
/usr/bin/python 3 


如 果 使 用 CentOS， 可 以 使 用 YUM 安装 Python 3。 使 用 YUM 命令 查找 可 供 安 装 
的 Python 版 本 : 

#yum search python 3 

安装 想 要 的 版 本 : 

#yum install python 36 

如 果 使 用 Ubuntu 操作 系统 ， 执 行 以 下 命令 可 以 更 新 软件 包 列表 ， 并 将 所 有 系统 软 
件 升 级 到 可 用 的 最 新 版 本 : 


#sudo apt-get update && sudo apt-get -Y upgrade 


。TS。 
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安装 Pip 包 管 理 系统 : 


#sudo apt-get install python 3-pip 


4.3 选择 版 本 


Linux 操作 系统 中 有 可 能 同时 存在 多 个 可 用 的 Python 版 本 。 每 个 Python 版 本 都 
对 应 一 个 可 执行 二 进 制 文件 , 可 以 使 用 ls 命令 来 查看 系统 中 有 哪些 Python 的 二 进 制 
文件 可 供 使 用 。 

A 

使 用 python 命令 可 以 执行 Python 2， 使 用 python 3 命令 可 以 执行 Python 3。 那 么 ， 
如 何 使 用 python 命令 执行 Python 3 呢 ? 一 种 简单 、 安 全 的 方法 是 使 用 别名 , 将 如 下 命令 
放 入 ~/.bashre 或 ~/.bash_aliases 文件 中 。 


alias python=python 3 


最 好 在 终端 中 使 用 'python 3' 命 令 , 在 Python 3.x 文件 中 使 用 shebang 行 #!/usr/bin/env 
python3'。 


4.4 开发 环境 


关于 开发 环境 ， 既 可 以 使 用 Sublime 这 样 的 简单 文本 编辑 器 编写 Python 代码 ， 也 
可 以 使 用 PyCharm 这 样 的 专业 集成 开发 环境 。 

PyCharm 是 业界 公认 的 Python 开发 工具 之 一 ， 尤 其 在 智能 代码 助手 、 代 码 自动 提 
示 、 重 构 、GIT 整合 \ 代 码 审 查 、 创 新 的 GUI 设 计 等 方面 的 功能 可 以 说 是 超常 的 .PyCharm 
是 JetBrains 公司 的 产品 ， 这 家 公司 总 部 位 于 捷克 共和 国 的 首都 布拉格 ， 开 发 人 员 以 严 
谨 著 称 的 东欧 程序 员 为 主 。 用 于 Java 开发 的 IDEA 是 这 家 公司 的 主力 产品 ，PyCharm 
的 大 部 分 功能 都 可 以 通过 免费 的 Python 插件 提供 给 IDEA。 有 两 个 版 本 的 PyCharm: 
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专业 版 (免费 30 天 试用 版 ) 和 功能 较 少 的 社区 版 本 (Apache 2.0 许可 证 ) 。 


4.5 注释 


和 shell 类 似 ，Python 脚本 中 用 “# ”表示 注释 。 但 如 果 “#” 位 于 第 一 行 开 头 ， 并 
且 是 “ 吉 ”( 称 为 Shebang) 则 例外 , 它 表示 该 脚本 使 用 后 面 指定 的 解释 器 /usr/bin/python3 
解释 执行 。 每 个 脚本 程序 只 能 在 开头 包含 这 个 语句 。 

为 了 能 够 在 源 代码 中 添加 中 文 注释 ， 需 要 把 源 代 码 保存 成 utf-8 格式 的 。 例 如 : 


COding: utf=8 =* 
import tensorflow as tf 
x = tf.placeholder ("float",，[2]) # 形 状 是 2 


4.6 变量 


定义 变量 时 不 声明 类 型 , 但 变量 在 内 部 是 有 类 型 的 。 使 用 函数 type() 获 得 变量 的 类 
型 ， 实 现代 码 如 下 : 


>>> a="'3' 
>>> type (a) 
<class Lstr"> 


4.6.1 数值 


Python 中 有 int (整数 ) 、float ( 浮 点 数 ) 和 complex (复数 ) 3 种 不 同 的 数值 类 型 。 
与 Java 或 C 语言 中 的 int 类 型 不 同 ，Python 语言 中 的 int 类 型 是 无 限 精度 的 。 例 如 : 


>>> i=32432444444444444444444444444444444444444444487976875675676570000000000000 
00000000000000000000000000000000000000000000000000000000000000564564 
> 
324324444444444444444444444444444444444444444879768756756765700000000000 
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Python 依据 IEEE 754 标准 使 用 二 进 制 表示 浮 点 数 (float) ,存在 表示 精度 的 问题 。 
如 : 


使 用 decimal 模块 可 以 用 十 进 制 表 示 完整 的 小 数 。 例 如 : 


在 傅 里 叶 变换 中 会 用 到 复数 。 复 数 在 Python 中 是 一 个 基本 数据 类 型 。 例 如 : 


宣 


一 个 复数 有 一 些 内 置 的 访问 器 。 例 如 : 


内 置 函 数 abs0 和 pow(0 支 持 复数 。 例 如 : 


标准 模块 cmath 具有 处 理 复数 的 更 多 功能 。 例 如 : 
> iort aa 
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>>> cmath.sin(2 + 3j) 
(9.15449914691143-4.168906959966565j) 


用 于 数值 运算 的 算术 操作 符 说 明 如 表 4-1 所 示 。 
表 4-1 算术 操作 符 说 明 


操 作 符 数学 表达 式 说 明 
i atp 加 号 
E ab 减 号 
axp 乘 号 
as 除 号 
凤 La#2] 取 整 除 
% amodb 求 模 
= -a 取 负 数 
se) Ial 求 绝对 什 
[oo | 求 指数 


对 于 “/” 运 算 ， 就 算 分 子 和 分 母 都 是 int 类 型 ， 返 回 的 也 将 是 浮 点 数 。 例 如 ; 


>>> Printi(1/3) 
03333333333333333 


Python 支持 不 同类 型 的 数据 相 加 ， 它 使 用 数据 类 型 强制 转换 的 方式 来 解决 数据 类 
型 不 一 致 的 问题 一 一 将 一 个 操作 数 转换 成 与 另 一 个 操作 数 相 同 的 数据 类 型 。 例 如 ， 将 
整数 转换 为 浮 点 数 ， 非 复数 转换 为 复数 。 


4.6.2 ”字符 串 


使 用 strip() 方 法 可 以 去 掉 字 符 串 首尾 的 空格 或 指定 的 字符 。 
term=" hi "; ” 非 去 除 首尾 空格 
print (term.strip()); 


Se 
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4.7 数组 


使 用 array (数组 ) 可 以 存储 同一 类 型 的 数据 。 通 过 import array 命令 导入 Python 
的 数组 类 型 ， 就 可 以 使 用 array 类 型 了 。 例 如 : 


from array import array 


node=array('H')  # 存 储 无 符号 短 整 型 的 数组 
node.append (12) 


4.8 列表 


使 用 list 可 以 存储 任何 类 型 的 对 象 。 例 如 : 

listl = ['physics', 'chemistry', 1997, 2000]; 
Tot Ao 6 7 
prinelisti[IOol ™. ListlI01) 

printi lilot2llSl “ist2ll Si 


输出 : 


list1[0]: physics 
sD) A 


4.9 元 组 


元 组 是 一 个 不 可 变 的 Python 对 象 序列 。 元 组 变量 的 赋值 要 在 定义 时 就 进行 ， 赋 值 
后 不 允许 有 修改 。 例 如 : 


tupl = ('physics', 'chemistry', 1997, 2000); 
Enp20 (0 2 a DR 6 7 

prinE( EmpUIOls 2 tupylols 
ED 
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4.10 ”字典 


字典 是 另 一 种 可 变 容器 模型 ， 且 可 存储 任意 类 型 对 象 。 要 访问 字典 元 素 ， 可 以 使 
用 熟悉 的 方 括号 和 键 来 获取 它 的 值 。 


4.11 控制 流 


控制 流 用 来 根据 运行 时 情况 调整 语句 的 执行 顺序 。 流 程控 制 语 句 可 以 分 为 条 件 语 
句 和 迭代 语句 。 


4.11.1 条 件 判 断 
当 路 径 不 存在 时 ， 就 创建 它 一 一 使 用 条 件 语句 实现 。 条 件 语句 的 一 般 形式 如 下 : 


例如 ， 判 断 一 个 数 是 否 为 正 数 。 
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xX = =32.2; 

isPositive = (x > 0); 

if isPositive: 
Print(X; "= 是正 数 "x 

e156 

print (x，" 不 是 正 数 "); 


使 用 关系 运算 符 和 条 件 运算 符 作 为 判断 依据 。 关 系 运 算 符 返回 一 个 布尔 值 ， 关 系 
运算 符 的 说 明 如 表 4-2 所 示 。 


表 4-2 关系 运算 符 说 明 


运算 符 说 明 返回 true， 如 果 … 

> a 大 于 b 

盖 a 大 于 或 等 于 b 

< a 小 于 b 

<= a 小 于 或 等 于 b 

== a 等 于 b 

这 a 不 等 于 b 

4.11.2 ”循环 


使 用 复印 机 复印 一 个 证 件 ， 可 以 设置 复制 的 份 数 。 在 Python 中 ， 可 以 使 用 for 循环 
或 while 循环 实现 多 次 重复 执行 一 个 代码 块 。 
for 循环 可 以 遍历 任何 序列 。 例 如 ， 列 出 当前 目录 下 所 有 的 文件 。 


import glob 

cur files = glob.glob("*"); 
for wf in cur files: 

Print (wf) 


每 一 次 在 执行 循环 代码 块 前 ， 根 据 循环 条 件 决 定 是 否 继续 执行 循环 代码 块 ， 当 满 
足 循环 条 件 时 ， 继 续 执行 循环 体 中 的 代码 。 在 循环 条 件 之 前 写 上 关键 词 while (这 里 的 
while 就 是 “ 当 ” 的 意思 ) ， 当 用 户 直 接 按 Enter 键 时 退出 循环 。 例 如 : 


we 
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import sys 
while True: 
line = sys.stdin.readline() .strip() 
if not line: 
break 
print (line) 


4.12 模块 


使 用 import 语句 可 以 导入 一 个 .py 文件 中 定义 的 函数 。 一 个 .py 文件 就 称 为 一 个 模 


块 (Module) 。 例 如 ， 存 在 一 个 re.py 文件 ， 可 以 使 用 import re 语句 导入 这 个 正则 表 


达 式 模块 。 


使 用 正则 表达 式 模块 去 掉 一 些 标点 符号 的 例子 ， 实 现代 码 如 下 : 


import re 

ne = MHL" 

normtext = re sub(r"INe Nl 2 Line} 
print (normtext) 


从 re 模块 直接 导入 函数 sub0 的 例子 ， 实 现代 码 如 下 : 
from re import sub 

line = 'Hi."' 

normtext = sub(r'[\.,:;7\?]', '', line) 


print (normtext) 


模块 越 来 越 多 以 后 ， 会 难以 管理 一 一 可 能 会 出 现 重 名 的 模块 。 例 如 ， 一 个 班 里 有 两 


个 叫 陈晨 的 同学 ， 如 果 他 们 在 不 同 的 小 组 ， 则 可 以 分 别称 为 第 一 组 的 陈晨 和 第 三 组 的 陈 
晨 ， 这 样 就 能 区 分 同名 了 。 为 了 避免 名 称 冲 突 ， 可 以 让 模块 位 于 不 同 的 命名 空间 一 一 包 


十 


ph， 在 模块 名 前 面 加 上 包 名 限定 。 这 样 即使 模块 名 相同 ， 也 不 会 冲突 了 。 


查看 已 经 安装 的 模块 : 
D:\Python\Python36\Tools\scripts>..\..\python pydoc3.py modules 


刚 开始 时 ，setup.py 文件 可 能 令 人 望 而 生 晨 。 使 用 twine 包 可 以 把 模块 发 布 共享 到 
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pypi 网 站 (https://pypi.org/) 。 例 如 ，TensorFlow 模块 位 于 https://pypipython.org/pypi/ 
tensorflow。wheel 本 质 上 是 一 个 zip 包 格 式 , 它 使 用 .whl 扩展 名 ,用 于 Python 模块 的 
安装 。pip 提供 了 一 个 wheel 子 命令 来 安装 wheel 包 。 当 然 , 需要 先 安装 wheel 模块 。 


pip install wheel 
python setup.py bdist wheel 


在 Windows 操作 系统 下 使 用 wheel 文件 安装 numpy。 首先 下 载 用 于 Windows 操作 
系统 的 Python 扩展 包 numpy-1.15.0rcl+tmkl-cp35-cp3Sm-win_ amd64.whl。 然 后 在 命令 
行 输入 : 


C:\Users\Downloads> pip install numpy-1.15.0rcl+mkl-cp35-cp35m-win amd64.whl 


4.13 ”图 数 


把 一 段 多 次 重复 出 现 的 代码 命名 成 一 个 有 意义 的 名 称 ， 然 后 通过 调用 该 名 称 来 执 
行 这 段 代 码 。 这 种 有 名 称 的 代码 段 就 是 函数 。 例 如 ， 定 义 一 个 名 为 RunKaldiCommand 
的 函数 。 

import subprocess 

def RunKaldiCommand (command, wait = True): 

""" 通 常 执行 由 管道 连接 的 一 系列 命令 , 所 以 我 们 使 用 shell=True """ 
P = subprocess.Popen (Command， shell = True, 


stdout = subprocess.PIPE, 
stderr = subprocess .PIPE) 


if wait: 
[stdout, stderr] = p.communicate() 
if p.returncode is not 0: 
raise Exception("There was an error while running the command 
{0}\n".format (command) +"—"*]0+"\n"+stderr) 
return stdout, stderr 
else: 
return p 
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使 用 该 函数 : 

RunKaldiCommand ("1s -1h") 

这 里 只 给 RunKaldiCommand() 的 第 一 个 参数 传递 了 值 ， 第 二 个 参数 的 值 采用 默认 
的 True。 

每 个 Python 文件 /脚本 (模块 ) 都 有 一 些 未 明确 声明 的 内 部 属性 。 其 中 一 个 属性 是 
_builtins 属性 , 它 本 身 包含 许多 有 用 的 属性 和 功能 。 我 们 可 以 在 这 里 找到 _name_ 属 性 ， 
根据 模块 的 使 用 方式 , 它 可 以 具有 不 同 的 值 。 当 把 Python 模块 作为 程序 直接 运行 时 (无 
论 是 从 命令 行 还 是 双击 它 ) ，_name 中 包含 的 值 都 是 文本 字符 串 " main "。 相 比 之 下 ， 
当 一 个 模块 被 导入 另 一 个 模块 (或 在 python REPL 被 导入 ) 时 ，_name 属性 中 的 值 是 
模块 本 身 的 名 称 〈 即 隐 式 声明 它 的 Python 文件 /脚本 名 称 ) 。 

Python 脚本 执行 的 方式 是 自 上 而 下 的 ， 指 令 在 解释 器 读 取 时 才 执 行 。 如 果 你 想 要 
做 的 只 是 导入 模块 并 利用 它 的 一 个 或 两 个 方法 ， 这 可 能 是 一 个 问题 。 那 么 ， 应 该 怎么 
做 呢 ? 你 可 以 有 条 件 地 执行 这 些 指令 一 将 它们 包装 在 一 个 站 语句 块 中 。 这 是 main() 
函数 的 目的 。 它 是 一 个 条 件 块 ， 因 此 除非 满足 给 定 的 条 件 ， 否 则 不 会 处 理 main(0) 函 数 。 

Main0 函 数 的 例子 ， 实 现代 码 如 下 : 


import sys 


def main() : 
if len(sys.argv) != 2: 
sys.stderr.write("Usage: {0} <min-count>\n" .format (sys.argv[0])) 
raise SystemExit (1) 


words = {} 
for line in sys.stdin.readlines(): 
parts = line.strip() .split() 
words[parts[1]] = words.get (parts[1], 0) + int (parts[0]) 


for word, count in words.iteritems(): 
if count >= int (sys.argv[1]): 


print ("{0} {1}".format (count, word)) 


if name == ' main ': 
main() 
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4.14 读 写 文件 


逐 行 读 入 文本 文件 : 


lexicon = open("lexicon.txt") 
for line in lexicon: 

line = line.strip() 

print (line, "\n") 
lexicon.close() 


读 入 utfs 编码 格式 的 文本 文件 : 


import codecs 
import sys 
transcript = codecs.open(sys.argv[1], "r", "utf8") # 第 一 个 参数 传 入 文件 名 
for line in transcript: 
print (line) 
transcript.close() 


为 了 实现 写 入 文本 文件 ， 可 以 使 用 'w' 模 式 的 函数 open0 以 写 模式 打开 新 文件 。 


new path = "a.speaker info" 
fout = open (new path,'w') 


需要 注意 的 是 ， 如 果 a.speaker_info 在 打开 文件 之 前 已 经 存在 ， 它 的 旧 内 容 将 被 破 
坏 ， 所 以 在 使 用 'w' 模 式 时 要 小 心 。 

一 旦 打开 新 文件 ， 就 可 以 使 用 写 入 操作 <file>.write0 将 数据 放 入 文件 中 。 写 入 操作 
接受 单个 参数 ， 该 参数 必须 是 字符 串 ， 并 将 该 字符 串 写 入 文件 。 如 果 想 要 在 文件 中 开 
始 新 行 ， 则 必须 明确 提供 换行 符 。 例 如 : 

fout .write ("\nID:\t1212") 

关闭 文件 可 确保 磁盘 上 的 文件 和 文件 变量 之 间 的 连接 已 完成 ， 还 可 确保 其 他 程序 
能 够 访问 它们 并 保证 数据 安全 ， 所 以 一 定 要 确保 关闭 文件 。 现 在 ， 让 我 们 使 用 
<file>.close0 关 闭 所 有 文件 。 

fout .close() 


导入 json 模块 读 取 json 格式 的 文件 : 
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json 文件 的 内 容 如 下 : 


读 取 json 格式 的 文件 如 下 : 


4.15 ”面向 对 象 编程 


语音 识别 软件 往往 由 很 多 万 行 代码 组 成 ， 是 一 个 复杂 的 系统 。 为 了 能 够 封装 细节 ， 
需要 为 其 抽象 出 对 象 。 只 要 写 出 对 象 的 实现 代码 ， 就 可 以 创建 出 该 对 象 并 使 用 它 。 
例如 ， 定 义 一 个 封装 表 中 数据 的 Table 类 。 
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rows = [self.colSep.join( 
[c+"' '* gap for c, gap in zip(self.colnames, gaps)])] 
£0F ¥ in sd: 
gaps = [m - len(c) for (m, c) in zip(colwidth, r)] 
rows .append ( 
self.colSep.join([c + ' * *d for c, d in zip( gaps)])) 


return self.linesep.join (rows) 
方法 与 对 象 实例 或 类 相关 联 ， 函 数 则 不 是 。 当 Python 调度 〈 调 用 ) 一 个 方法 时 ， 
它 会 将 该 调用 的 第 一 个 参数 绑 定 到 相应 的 对 象 引 用 。 对 于 大 多 数 方法 ， 该 参数 通常 称 
为 self。 
为 了 实现 动态 加 载 一 个 Python 类 ， 可 以 使 用 如 下 函数 。 


def my import (name): 
components = name.split('.') 
mod = import (components[0]) 
for comp in components[1:]: 
mod = getattr (mod, comp) 
return mod 


简单 的 _import 不 起 作用 的 原因 是 任何 经 过 包 字 符 串 中 第 一 个 点 的 任何 导入 都 是 
正在 导入 模块 的 属性 。 因 此 ， 以 下 代码 不 会 奏效 。 

_import_('"foo.bar.baz.qux'") 

必须 使 用 以 下 代码 调用 上 面 的 函数 。 


klass = my import('my package.my module.my class') 
some object = klass() 


4.16 ”命令 行 参数 


在 采用 多 种 编程 语言 开发 的 语音 识别 系统 中 ，Python 脚本 可 能 需要 从 命令 行 直 接 
读 取 参 数 。 如 果 脚 本 很 简单 或 临时 使 用 ， 没 有 多 个 复杂 的 参数 选项 ， 则 可 以 直接 用 
sys.argv 读 取 传 入 的 命令 行 参数 。 
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测试 TestArgv.py 中 内 容 的 代码 如 下 : 
import sys 
print ("This is the path of the script: ", sys.argv[0]) # 和 脚本 的 相对 路 径 


print ("Number of arguments: ",，len(sys.argv) ) # 长 度 最 少 为 工 
print ("The arguments are: " ，str(sys.argv)) #str 函数 输出 sys.argv 的 内 容 


输出 结果 如 下 : 


D:\PYcharmProjects\Scripts\python.exe D:/PycharmProjects/untitled/TestArgv.py 
abe 

This is the path of the script: D:/PycharmProjects/untitled/TestArgv.py 

Number of arguments: 4 

The arguments are: ['D:/Pycharmprojects/untitled/TestArgv.py', 'a', 'b', 'c'] 


相关 的 规范 有 POSIX getopt0 和 GNU getopt_ long0， 单 字符 选项 (-a) 、 组 合 
选项 (-abc 等 同 于 -a-b-c) 、 多 字符 选项 (-inum) 、 带 参数 的 选项 (-a arg, -inum 3， 
-a=arg) 。 

GNU 扩展 getopt_long() 可 以 解析 更 可 读 的 多 字符 选项 ， 该 选项 前 缀 为 双 破 折 号 ， 
而 非 单 个 破 折 号 。 双 破 折 号 选项 (如 --inum) 可 以 和 单个 破 折 号 选项 (-abc) 区 分 开 。 
GNU 扩展 允许 带 参 选项 有 不 同 的 形式 : --name=arg。 

argprase 包 使 这 一 工作 变 得 简单 而 规范 , 它 支 持 POSIX getopt0 和 GNU getopt_long()。 
例如 ， 有 两 个 必需 的 参数 i 和 o， 分 别 用 于 指定 输入 和 输出 文件 。TestArgprase.py 实现 
代码 如 下 : 


import argparse 

parser = argparse.ArgumentParser (description='format acronyms froma. b. c. 
to a bec) 

parser.add argument ('-i','--input', help='Input ctm file ',required=True) 

parser.add argument ('-o','--output',help='Output ctm file', required=True) 

args = parser.parse args () 


fin = open(args.input, "r") 
fout = open(args.output, "w") 


使 用 -h 参数 运行 TestArgprase.py 的 输出 结果 如 下 : 
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D:\PycharmProjects\untitled\venv\Scripts\python.exe D:/PycharmProjects/ 
untitled/TestArgprase.py -h 
usage: TestArgprase.py [-h] -i INPUT -o OUTPUT 
format acronyms from a. b. c. toabc 
optional arguments: 
-h，--help show this help message and exit 
-i INPUT，--input INPUT 
Input ctm file 
-Oo OUTPUT，--output OUTPUT 
Output ctm file 


4.17 数据 库 


使 用 sqlite3 模块 在 内 存 中 创建 一 个 SQLite 数据 库 。 


import sqlite3 

conn = sqlite3.connect (':memory:') 间 连接 数据 库 

print (" 成 功 打开 数据 库 ") ， 

c= conn.cursor() 

C.execute ( 

"17CRERATE TABLE results (exp text, dataset text, lm text, lm w int, wer float, 
ser float)''') 


从 前 面 创建 的 results 表 中 获取 并 显示 记录 。 
# 获 得 排 好 序 的 所 有 结果 


C.execute ("SELECT * FROM results ORDER BY exp, dataset, lm, lm w") 
d= c.fetchall() 

t = Table (data=d, colnames=['exp', 'set', ‘'lm', 'LMW', "WER', 'SER']) 
= 一 = 一 ==="' 多 str(t)) 


print ('%s\n=: 


4.18 日 志 记 录 


机 器 学 习 的 训练 过 程 可 能 用 时 很 长 ， 为 了 监控 运行 状态 ， 可 以 用 日 志 记录 。 
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import logging 
logging.basicCconfig (level=logging .DEBUG) 
logging.debug('trainning...') 


日 志 级 别 大 小 关系 为 CRITICAL > ERROR > WARNING > INFO > DEBUG > 
NOTSET， 当 然 也 可 以 自己 定义 日 志 级 别 。 

处 理 器 将 日 志 记录 发 送 到 任何 输出 ,这 些 输出 以 自己 的 方式 处 理 日 志 记录 。 例如 ， 
FileHandler 可 获取 日 志 记录 并 将 其 附加 到 文件 中 。 

标准 日 志 记录 模块 已 经 配备 了 多 个 内 置 处 理 器 。 例 如 : 

。 TimeRotated、SizeRotated 和 Watched 可 以 写 入 文件 的 文件 处 理 器 。 

e StreamHandler 可 以 输出 到 stdout 或 stderr 等 流 。 

。 SMTPHandler 通过 电子 邮件 发 送 日 志 记录 。 

e SocketHandler 将 日 志 记录 发 送 到 流 套 接 字 。 

此 外 ， 还 有 SyslogHandler、NTEventHandler、HTTPHandler 和 MemoryHandler 等 
处 理 器 。 

格式 器 负责 将 元 数据 丰富 的 日 志 记录 序列 化 为 一 个 字符 串 。 如 果 没 有 提供 ， 则 有 
一 个 默认 格式 器 。 记 录 库 提供 的 通用 格式 器 类 将 模板 和 样式 作为 输入 ， 然 后 可 以 为 日 
志 记 录 对 象 中 的 所 有 属性 声明 占 位 符 。 举 个 例子 ，'%(asctime)s %(levelname)s %(name)s:% 
(message)s' 会 生成 类 似 以 下 这 样 的 日 志 。 

2017-07-19 15:31:13,942 INFO parent.child: Hello Europython. 

注意 , 属性 消息 是 使 用 提供 的 参数 对 日 志 的 原始 模板 进行 插值 计算 的 结果 。 例 如， 
对 于 logger.info("Hello %s", "Laszlo")， 消 息 将 是 "Hello Laszlo"。 

TestStreamHandler.py 的 实现 代码 如 下 : 


import logging 

logger = logging.getLogger( name ) 

logger.setLevel (logging.INFO) 

handler = logging.streamHandler () 

handler.setLevel (logging.INFO) 

formatter = logging.Formatter('s%(asctime)s [S$ (filename) s:$ (lineno)s 
- (funcName)s - S$(levelname)s ] $(message)s') 
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handler.setFormatter (formatter) 

logger.addHandler (handler) 

string = "'" 

logger.info("trainning... \n {0}".format (string)) 


输出 结果 如 下 : 


2018-06-24 22:01:28,465 [TestStreamHandler.py:12 - <module> - INFO ] trainning... 


4.19 ”异常 处 理 


在 Python 中 ， 可 以 在 运行 时 可 能 出 现 问 题 的 代码 中 检查 是 否 有 异常 。 在 try 代码 
块 中 捕捉 异常 ， 而 在 except 代码 块 中 处 理 异常 ， 这 样 把 异常 处 理 代 码 和 正常 的 流程 分 
开 ， 可 以 使 正常 的 处 理 流程 代码 连贯 在 一 起 。 

except 代码 块 又 称 为 异常 处 理 器 ， 常 见 格式 为 : 

except ExceptionClass as e: // 异 常 类 型 

以 下 代码 用 于 捕捉 路 径 创 建 中 的 异常 。 


import errno 
output dir = "d:/test" 
Cry 


os.makedirs (output dir) 
except OSError as e: 


if e.errno == errno.EEXIST and os.path.isdir(output dir): 
print ("路 径 已 经 存在 "); 
pass 

elses 
raise e 


4.20 测试 


nose 是 Python 中 的 一 个 测试 框架 。 安 装 nose 后 ， 运 行 对 numpy 的 测试 。 例 如 : 


python -c "import numpy;numpy.test()" 
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4.21 语音 活动 检测 


语音 活动 检测 (Voice Activity Detection，VAD) 也 称 为 语音 检测 ， 它 是 一 种 语音 
处 理 技 术 ， 用 于 检测 是 否 存 在 人 类 语音 。 

(1) 声学 特征 提取 

声音 是 模拟 信号 ， 声 音 的 时 域 波形 只 代表 声 压 随 时 间 变 化 的 关系 ， 不 能 很 好 地 代 
表 声 音 的 特征 ， 因 此 ， 必 须 将 声音 波形 转换 为 声学 特征 向 量 。 有 许多 声音 特征 提取 方 
法 ， 如 梅 尔 频率 倒 谱系 数 〈MFCC) 、 线 性 预测 倒 谱 系数 (LPCC) 、 多 分 辩 率 耳蜗 图 
(Multi-Resolution CochleaGram，MRCG ) 。 

(2) 分 类 器 

我 们 可 以 使 用 以 下 4 种 类 型 的 基于 MRCG 的 分 类 器 。 这 些 分 类 器 由 附带 TensorFlow 
的 Python 实现 。 

。 自 适 应 上 下 文 关注 模型 (ACAM) 。 

。 增强 的 深度 神经 网 络 (bDNN) 。 

。 深度 神经 网 络 (DNN) 。 

。 长 短期 记忆 递归 神经 网 络 (LSTM-RNN) 。 


4.22 使 用 numpy 


使 用 numpy 可 以 加 载 .npy 格式 的 数据 ， 然 后 使 用 matplotlib 显示 图 像 。 实 现代 码 
如 下 : 


import numpy as np; 

c = np.load( "F:/book/models-master/official/mnist/examples.npy" ); 
import matplotlib.pyplot as plt 

plt.imshow(c[0], cmap=plt.cm.gray) 

plt.show() 


93.， 


Java 开发 语音 识别 


Java 中 的 javac 命令 从 命令 提示 符 窗口 编译 程序 一 一 它 从 文本 文件 中 读 取 Java 源 
程序 并 创建 编译 的 Java 类 文件 。javac 命令 的 基本 语法 格式 为 : 

javac filename [options] 

例如 ， 要 编译 名 为 HelloWorldjava 的 程序 ， 可 以 使 用 以 下 命令 : 

javac Helloworld.java 

执行 上 述 命令 ， 会 将 HelloWorld 引用 的 类 一 起 编译 。 

javac 命令 既 可 以 实现 编译 用 户 在 命令 行 中 指定 的 单个 文件 ， 也 可 以 使 用 以 下 任意 
方法 实现 一 次 编译 多 个 文件 。 

方法 1: 在 javac 命令 中 列 出 要 编译 的 多 个 文件 名 。 例 如 ， 使 用 以 下 命令 同时 编译 3 
个 文件 : 

javac TestPrograml.java TestProgram2.java TestProgram3.java 

方法 2: 使 用 通配符 编译 一 个 文件 夹 中 的 所 有 文件 。 例 如 : 

javac *.java 

方法 3: 如 果 需 要 同时 编译 大 量 文件 (可 能 不 是 文件 夹 中 的 所 有 文件 ) ， 又 不 想 
使 用 通配符 ， 则 可 以 先 创建 参数 文件 ， 列 出 要 编译 的 文件 。 在 参数 文件 中 ， 可 以 根据 
需要 输入 文件 名 ， 文 件 名 之 间 使 用 空格 或 换行 符 分隔 。 例 如 ， 这 里 有 一 个 名 为 
TestPrograms 的 参数 文件 ， 列 出 了 3 个 要 编译 的 文件 : 


TestPrograml .java 
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然后 , 在 javac 命令 行 中 使 用 “@+ 参 数 文件 名 ”的 形式 编译 该 文件 中 所 有 的 程序 。 
本 示例 实现 命令 如 下 : 
javac efestprogras 


5.1 实现 卷 积 


卷 积 是 语音 信号 处 理 的 基础 。 下 面 为 二 维 卷 积 的 实现 代码 。 
实现 单 点 卷 积 : 
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输出 结果 : 


5.2 KaldiJava 


用 户 既 可 以 使 用 Ultraedit 远程 编辑 服务 器 上 的 Bash 脚本 文件 , 然后 在 终端 直接 运 
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行 ， 也 可 以 远程 修改 服务 器 上 的 KaldiJava 项 目 中 的 Java 代码 ， 然 后 在 终端 用 Ant、 
Maven 或 Gradle 编译 。 


5.2.1 使 用 Ant 


在 CentOS 下 ， 安 装 Ant。 

#yum -Y install ant 

项 目的 源 代码 根 路 径 包 括 一 个 build.xml 文件 ,每 一 个 build.xml 文件 只 有 一 个 Project 
(工程 ) ， 里 面 定义 了 这 个 工程 的 全 局 属性 。 执 行 ant 时 ， 可 以 选择 执行 哪个 目标 。 当 
没有 指定 目标 时 ， 执 行 Project 的 默认 属性 所 确定 的 目标 ， 只 需要 执行 如 下 命令 。 

#ant 

build.xml 文件 定义 了 一 个 项 目 。 与 项 目 相关 的 信息 包括 项 目 名 和 默认 编译 的 目标 。 
例如 ， 项 目 Kaldi 默认 编译 的 目标 为 makeJAR。 

<project name="kaldi" default="makeJAR" basedir="."> 

可 以 运行 指定 的 任务 。 例 如 ， 运 行 下 面 的 compile 任务 。 


<target name="compile" depends="init" 


description="compile the source "> 
<javac compiler="modern" encoding="utf-8" debug="true" srcdir="${src}" 
destdir="${bin}" classpathref="project.class.path" target="1.8" source="1.8" /> 


</target> 

使 用 以 下 命令 行 : 

#ant compile 

通过 Ant 执行 的 build.xml 来 自动 生成 可 执行 的 jar 包 。Ant 通过 调用 目标 树 , 就 可 
以 执行 各 种 目标 。 例 如 ， 编 译 源 代码 的 目标 ， 还 有 打 jar 包 的 目标 。 

由 于 Ant 构建 文件 是 XML 格式 的 文件 ,因此 很 容易 维护 和 书写 ， 而 且 结构 很 清晰 。 
Ant 可 以 集成 到 开发 环境 中 , Eclipse 默认 安装 了 Ant 插件 。 选 中 build.xml 后 , 在 run as 
中 选取 ant build， 即 可 运行 build.xml 中 的 默认 目标 。 
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使 用 build.xml 可 以 完成 的 事情 如 下 。 

。 定义 全 局 变量 ， 如 定义 项 目 名 。 

e 初始 化 ， 主 要 是 创建 目录 ， 如 发 布 路 径 。 

e 编译 java 源 代 码 成 为 class 文件 ， 调 用 <javac encoding="utf-8" debug="true" 


srecdir="${src}" destdir="${bin}" classpathre 仁 "project.class.path" target="1.8" 


source="1.8"/>。 

e 把 class 文件 打包 到 一 个 jar 文件 ， 调 用 <jar destfile="***">。 

e 创建 API 文档 。 

目标 之 间 可 以 有 依赖 关系 , 例如 makeJAR 依赖 init 和 compile，init 依赖 clean。 所 
以 目标 执行 顺序 是 clean 一 init 一 compile 一 makeJAR。 

<target name="makeJAR" depends="init,compile"> 

如 果 需 要 更 新 war 中 的 文件 , 则 设置 update="true"。jar 包 中 要 正好 包含 有 用 的 class 
文件 ， 既 不 能 包含 测试 部 分 代码 ， 也 不 能 包含 源 文件 。 例 如 : 


<target name="makeJAR" depends="init,compile"> 
<jar destfile="${dist}/${jarfile}"> 
<fileset dir="${bin}"> 
<include name="**/*.class"/> 


<exclude name="**/*.jflex"/> 
</fileset> 
< 
</target> 


javac 标签 调用 java 编译 器 。 如 果 Java 源 代码 文件 编码 不 一 致 可 能 会 出 错 ， 则 可 
以 把 编码 统一 成 GBK 或 UTF-8。 如 果 源 代码 文件 编码 为 UTF-8， 则 使 用 javac 编译 时 
要 增加 encoding 选项 并 指定 编码 为 UTF-8。 


<javac encoding="utf-8" debug="true" srcdir="${src}" destdir="${bin}" 


classpathref="project.class.path" target="1.6" source="]1.6"/> 


在 junit 任务 中 可 以 使 用 <batchtest>。 例 如 : 


<target name="test" depends="compileTest"> 
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使 用 Maven 可 以 构建 Java 项 目 。Maven 使 用 pom.xml 文件 配置 和 管理 项 目 。 在 项 
目的 根 目录 中 放置 pom.xml, 在 src/main/java 目 录 中 放置 项 目的 运行 代码 ,在 src/testjava 
中 放置 项 目的 测试 代码 。 

使 用 maven archetype 来 创建 项 目的 结构 。 采 用 Maven 构建 的 项 目 一 般 包 括 一 个 
pom.xml 文件 。 
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</plugins> 
</build> 


使 用 下 面 的 命令 执行 它 。 

mvn assembly:single 

用 install 参数 下 载 依赖 的 jar 文件 。 

mvn install 

Maven 默认 的 本 地 仓库 地 址 为 $ {user.home}/.m2/repository。 例 如 ,如果 用 Administrator 
账户 登录 , 则 把 jar 包 下 载 到 C:\Users\Administrator\.m2\repository\ 这 样 的 路 径 。 如 果 jar 
包 位 于 lib 路 径 下 ， 则 Eclipse 的 .classpath 文件 中 的 classpathentry 为 lib 类 型 。 

<classpathentry kind="lib" path="lib/commons-io-1.2.jarn/> 

如 果 jar 包 位 于 Maven 的 存储 库 中 ， 则 Eclipse 的 .classpath 文件 中 的 classpathentry 
为 var 类 型 。 


<classpathentry kind="var" path="M2 REPO/junit/junit/4.8.2/junit-4.8.2.jar" 
sourcepath="M2 REPO/junit/junit/4.8.2/junit-4.8.2-sources.jar"/> 


5.2.3 使 用 Gradle 


相 比 Maven，Gradle 提供 了 更 加 灵活 的 构建 方式 。 可 以 下 载 二 进 制 文件 来 安装 
Gradle， 实 现代 码 如 下 : 


#cd /opt/ 

#wget -bc https://services.gradle.org/distributions/gradle-3.5-bin.zip 
#unzip gradle-3.5-bin.zip 

#mv gradle-3.5 ./gradle 


可 以 在 /etc/profile 文件 或 /etc/profile.d 下 设置 环境 变量 。 不 过 /etc/profile.d/ 比 /etc/profile 
好 维护 ， 对 于 不 需要 软件 的 变量 ， 可 以 直接 删除 /etc/profile.d/ 下 对 应 的 shell 脚本 。 创 
建设 置 环境 变量 的 脚本 文件 : 


#echo "export GRADLE HOME=/opt/gradle' > /etc/profile.d/gradle.sh 
#echo "export PATH=$PATH:$GRADLE HOME/bin' >> /etc/profile.d/gradle.sh 
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执行 这 个 脚本 文件 : 


检查 gradle 的 环境 变量 是 否 设置 正确 : 


这 里 ， 只 需要 使 用 gradle 编译 代码 。 例 如 : 


如 果 需 要 从 本 地 目录 中 获取 jar 文件 ， 则 在 build.gradle 文件 中 添加 以 下 代码 。 


要 创建 一 个 Java 项 目 ， 先 创建 一 个 新 的 项 目 目录 ， 进 入 并 执行 : 


会 得 到 源 文 件 夹 和 Gradle 构建 文件 。 
如 果 使 用 默认 gradle 包装 结构 建立 项 目 ， 即 : 


则 不 需要 修改 sourceSets 来 运行 测试 ，Gradle 会 发 现 测试 类 和 资源 都 在 src/test 下 。 
运行 一 个 测试 用 例 : 


运行 包 和 子 包 中 所 有 的 测试 用 例 : 
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大 多 数 工 具 需 要 在 计算 机 上 进行 安装 才能 使 用 它们 。 同 样 重要 的 是 ， 用 户 是 否 会 
为 构建 工具 安装 正确 的 版 本 。 如 果 正 在 使 用 旧版 本 的 构建 软件 怎么 办 呢 ? 

Gradle Wrapper( 以 下 称 为 Wrapper) 解决 了 以 上 两 个 问题 ， 它 是 开始 Gradle 构建 
的 首选 方式 。 使 用 Wrapper 可 以 使 项 目 组 成 员 不 必 有 预先 安装 好 Gradle， 便 于 统一 项 目 
所 使 用 的 Gradle 版 本 。 

在 Windows 操作 系统 下 可 以 添加 环境 变量 GRADLE USER_HOME 自 定 义 Gradle 
缓存 位 置 。 为 了 安装 Gradle 的 Eclipse 插件 ， 可 以 从 https://github.com/eclipse/buildship 
找到 安装 地 址 。 在 Eclipse 菜单 的 Windows 一 Preferences 一 Gradle 下 设置 Gradle User 
Home 路 径 为 Fi\soft\gradle-3.5\bin。 为 了 避免 下 载 超时 ， 可 以 在 项 目 根 目录 下 的 
gradle.properties 文件 中 设置 超时 时 间 。 


systemProp.org.gradle.internal.http.connectionTimeout=120000 


systemProp.org.gradle.internal .http.socketTimeout=120000 


5.2.4 ”概率 分 布 函数 


对 于 离散 型 随机 变量 ， 可 以 直接 用 直方 图 来 描述 其 统计 规律 性 。 例 如 ， 图 像 处 理 
中 的 灰 度 图 可 以 用 直方 图 统计 每 种 颜色 出 现 的 概率 。 一 般 把 语音 信号 当 作 连 续 型 随机 
变量 。 对 于 连续 型 随机 变量 ， 因 为 无 法 一 一 列举 出 随机 变量 的 所 有 可 能 取 值 ， 所 以 不 
能 像 随机 变量 那样 描述 它 的 概率 分 布 ， 于 是 引入 概率 密度 函数 (probability Density 
Function，PDF) ， 用 概率 密度 函数 的 积分 来 求 随机 变量 落 入 某 个 区 间 的 概率 。 概 率 密 
度 函 数 可 以 被 看 成 是 直方 图 的 平滑 近似 。java 实现 代码 如 下 : 


//return phi (x) = 高 斯 概率 密度 函数 


public static double phi (double x) { 
return Math.exp(-x*x/2) /Math.sqrt (2*#*Math .PI); 


} 


//return phi (x，mu，signma) = 高 斯 概率 密度 函数 ,均值 是 mu, 标准 差 是 sigma 
public static double phi (double x, double mu, double sigma) { 
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高 斯 混合 模型 ， 实 现代 码 如 下 : 


public final class GaussianMixtureModel { 

private List<GaussianDistribution> m distributions = null; 

private double[] m mixtureProbabilities; 

public GaussianMixtureModel (List<GaussianDistribution> dists, double[] 

mixtureProbabilities) { 

m distributions = dists; 
m mixtureProbabilities = mixtureProbabilities; 

} 

public double getPDF (float[] data) { 
double prob = 0; 
for(int i = 0; i < m distributions.size(); ++i) { 
Prob +=m mixtureProbabilities[i]*m distributions.get (i) .getPDF (data); 
} 
return prob; 


5.3 TensorFlow 的 Java 接口 


本 节 先 讲解 如 何在 Windows 下 使 用 TensorFlow 的 Java 接口 ， 然 后 讲解 使 用 编译 
工具 Bazel 从 源 代码 编译 和 使 用 TensorFlow 的 Java 接口 。 


5.3.1 在 Windows 操作 系统 下 使 用 TensorFlow 


为 了 使 用 TensorFlow 的 Java API， 可 以 在 项 目的 pom.xml 中 加 入 以 下 内 容 : 


<dependency> 
<groupId>org.tensorflow</groupId> 
<artifactId>tensorflow</artifactId> 
<version>1.9.0-rc2</version> 
</dependency> 


增加 对 JUnit 5 单元 测试 的 支持 : 


. 104 . 


第 5 章 Java 开发 语音 识别 


<dependency> 
<groupId>org.junit.jupiter</groupId> 
<artifactId>junit-jupiter-engine</artifactId> 
<version>${junit.jupiter.version}</version> 


<scope>test</scope> 
</dependency> 


这 里 的 “$f{junit.jupiter.version} ”是 Maven 属性 。 

TensorFlow 软件 使 用 Tensor 来 表示 计算 中 的 数据 。Tensor 类 是 一 个 带 类 型 的 多 维 
数组 。 例 如 ， 一 个 浮 点 数 标量 : 

Tensor tx = Tensor.create(1.0f); 

一 个 一 维 向 量 : 


float[] x = new float[]{1,2,3,4,5,6,7,8,9,0,1,2,30}; 
Tensor tx = Tensor.create (x); 
System.out.println (tx); // 输 出 Tensor 的 形状 


使 用 org.junit.jupiter.api.Assertions.assertEquals 方法 判断 Tensor 的 形状 : 


Floatll = new floatt) 1 1 2. 37 M7 Sr 6 Tr 0% YF Oy lr 27 30 1 
Tensor tx = Tensor.create (x); 
assertEquals (1, tx.shape().length, "length should equal 1"); 


一 个 3X2 的 浮 点 数 和 矩阵 : 


float[][] matrix = new float[3] [2]; 
Tensor m = Tensor.create (matrix); 
System.out.println (m.numDimensions () ); // 输 出 维度 


创建 一 个 常量 : 

Graph g = new Graph(); // 创 建 计算 图 

Tensor cl = Tensor.create(3.0f); 

g.opBuilder ("Const", "MyConst") .setAttr("dtype", cl.dataType()).setAttr 
valuen cl ROLL 


两 个 常量 相 加 : 
Graph g = new Graph(); 
// 创 建 会 话 


Session s = new Session(g); 
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Tensor nodel = Tensor.create (1.0f); 


1 


Tensor node2 
System.out.println (nodel.floatValue ()); 
System.out.println (node2.floatValue ()); 
// 往 计算 图 添加 两 个 常量 
Operation ol = 
g.opBuilder ("Const", "nodel") .setAttr("dtype", nodel.dataType()) 
.setAttr ("value", nodel) .build(); 
Operation o2 = 
g.opBuilder ("Const", "node2") .setAttr("dtype", node2.dataType()) 
.setAttr ("value", node2) .build(); 
Operation node3 = 
g.opBuilder ("Add", "sum") .addInput (ol .output (0)) .addInput (o2.output (0)). 
build(); 
System.out.println (node3); 
List<Tensor> results = s.runner() .fetch("sum") .run(); // 运 行 计算 图 ,并 获取 结果 
System.out.println (results.get (0) .floatValue ()); 
// 关 闭会 话 


s.close(); 


Tensor.create (4.0f); 


5.3.2 在 Linux 操作 系统 下 使 用 TensorFlow 


本 小 节 讲 解 在 Linux 操作 系统 下 使 用 TensorFlow 的 Java 接口 。 
安装 JDK 8: 

#sudo apt-get install openjdk-8-jdk 

添加 Bazel 分 发 URI 作为 包 源 : 


#echo "deb [arch=amd64] http://storage.googleapis.com/bazel-apt stable 
jakl.8" | sudo tee /etc/apt/sources.list.d/bazel.list 
curl https://bazel.build/bazel-release.pub.gpg | sudo apt-key add - 


安装 和 更 新 Bazel: 


#sudo apt-get update && sudo apt-get install bazel 


安装 后 ， 可 以 使 用 以 下 命令 升级 到 Bazel 的 较 新 版 本 。 


#sudo apt-get upgrade bazel 
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接 下 来 通过 编译 一 个 简单 的 C++ 程序 来 测试 Bazel。 在 这 里 ， 使 用 Bazel 提供 的 
cc_binary 规则 构建 C++ 二 进 制 文 件 。 在 cc_binary 规则 中 ， 二 进 制 文件 的 名 称 在 name 
属性 中 指定 (在 本 示例 中 为 hello-world) ， 要 构建 的 必需 源 文件 在 srcs 属性 中 指定 。 


hello-world.cc 中 的 源 代码 内 容 如 下 : 


测试 main 目录 下 的 构建 文件 : 
~ Spazel build -jobs 2 //main:helloworld 
运行 构建 出 来 的 可 执行 程序 bazel-bin/main/hello-world: 
Sbazel-bin/main/helloworld 


a 
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输出 结果 : 


Hello world 
Tue Jul 10 08:01:43 2018 


清除 现 有 构建: 


$bazel clean 


在 Linux 下 编译 Java 接口 : 
$nohup bazel build --jobs 1 --config opt  //tensorflow/java:tensorflow 


//tensorflow/java:libtensorflow jni & 
编译 出 libtensorflow_framework.so 和 libtensorflow_jni.so 这 两 个 本 地 库 文件 ， 以 及 
libtensorflow.jar 这 个 jar 包 。 
加 载 并 测试 Java 接口 : 


File f = new File("") 7 

System.out.println (f.getAbsolutePath ()); 

// 得 到 1ibtensorflow jni.so 的 绝对 路 径 

String filename = f.getAbsolutePath()+"/lib/libtensorflow jni.so"; 
System.load (filename); // 加 载 动态 链接 库 


System.out .Println("I'm using TensorFlow version: " + TensorFlow.version()); 
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根据 一 段 语 音 中 的 频率 变化 来 切 分 语音 。 语 音信 号 将 是 许多 不 同 频率 的 混合 ， 因 
此 从 频谱 而 不 是 单一 频率 考虑 可 能 更 有 成 果 。 对 于 固定 音 高 的 持续 音符 ， 除 了 音符 的 
基本 频率 之 外 ， 还 会 出 现 大 量 的 泛音 和 谐 波 。 而 对 于 实际 的 语音 ， 由 于 元 音 和 辅音 的 
不 同音 调 特性 ， 即 使 在 短片 段 内 频谱 也 会 剧烈 变化 。 


6.1 使 用 FFmpeg 


使 用 FFmpeg 可 以 实现 各 种 音频 格式 间 的 转换 或 从 视频 中 提取 音频 。 
在 CentOS 7 下， 安装 YUM 源 : 


sudo rpm --import http://li.nux.ro/download/nux/RPM-GPG-KEY-nux.ro 
sudo rpm -Uvh http://1i.nux.ro/download/nux/dextop/el7/x86 64/nux-dextop- 
release-0-5.el17.nux.noarch.rpm 


安装 FFmpeg 和 FFmpeg 开发 包 : 

sudo yum install ffmpeg ffmpeg-devel -y 
测试 是 否 安装 成 功 : 

#ffmpeg 

如 果 想 了 解 更 多 有 关 FFmpeg 的 命令 行 参数 ， 可 以 输入 : 


#ffmpeg -h 


深度 学 习 : 语音 识别 技术 实践 


使 用 FFmpeg 将 .wav 格式 转换 为 .mp3 格式 : 


#ffmpeg -i A.wav -acodec libmp3lame A.mp3 

将 .ogg 格式 转换 为 .mp3 格式 : 

#ffmpeg -i audio.ogg -acodec libmp3lame audio.mp3 
将 .ac3 格式 转换 为 .mp3 格式 : 

#ffmpeg -i audio.ac3 -acodec libmp3lame audio.mp3 
将 .aac 格式 转换 为 .mp3 格式 : 


#ffmpeg -i audio.aac -acodec libmp3lame audio.mp3 


6.2 标注 语音 


标注 语音 的 字母 表 可 以 使 用 IPA 或 SAMPA。SAMPA 是 计算 机 可 读 的 语音 字母 表 ， 
它 基本 上 包括 将 国际 音标 的 符号 映射 到 33 一 127 范围 内 的 ASCI 码 ， 即 7 位 可 打印 的 


ASCI 字符 。SAMPA 和 IPA 的 对 照 表 如 表 6-1 所 示 。 
表 6-1 SAMPA 和 1PA 的 对 照 表 

SAMPA IPA 例 子 
A a 开 前 不 圆 唇 元 音 英语 的 start 
{ 到 次 开 前 不 圆 唇 元 音 英语 的 map 
6 e 次 开 央 元 音 德语 的 besser 
Q D 开 后 圆 唇 元 音 英语 的 lot 

元 音 - 

E E 半 开 前 不 贺 唇 元 音 英语 的 met 
@ a 中 央 元 音 英语 的 banana 
3 3 半 开 央 不 圆 唇 元 音 英语 的 nurse 
' 次 闭 次 前 不 圆 夺 元 音 英语 的 kit 
O 3 半 开 后 圆 唇 元 音 英语 的 thought 
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续 表 
SAMPA IPA 说 明 例子 
多 9 半 闭 前 圆 唇 元 音 法 语 的 deux 
9 @ 半 开 前 圆 唇 元 音 法 语 的 neuf 
三 & 3 开 前 圆 唇 元 音 瑞典 语 的 skird 
vu o 次 闭 次 后 贺 导 元 音 英语 的 foot 
} 过 闭 央 圆 唇 元 音 瑞典 语 的 sju 
V A 半 开 后 不 圆 唇 元 音 英语 的 strut 
和 Y 次 闭 次 前 圆 唇 元 音 德语 的 hubsch 
B B 溃 双 层 擦 音 西班牙 语 的 cabo 
人 ¢ 清 硬 侨 擦 音 德语 的 ich 
D 6 浊 齿 控 音 英语 的 then 
G Y 浊 软 显 探 音 西班牙 语 的 fuego 
L 人 硬 脾 边 近 音 英语 的 million 
J n 硬 蜂 鼻 音 英语 的 canyon 
辅音 | N 了 软 腕 鼻音 英语 的 thing 
及 浊 小 舌 探 音 法 语 的 roi 
S 了 清 齿 后 探 音 英语 的 ship 
时 9 清 齿 控 音 英语 的 thin 
H dy 层 硬 颂 近 音 法 语 的 huit 
3 浊 后 齿 探 音 英语 的 measure 
? ? 喉 塞音 丹麦 语 的 sted 
使 用 Audacity 可 以 标注 音 轨 。Audacity 标签 轨 的 基本 格式 为 : 
开始 时 间 结束 时 间 文本 标签 
例如 : 


3.721154 4.045673 E 


使 用 开源 的 PRAAT (http://www.praat.org/) 可 以 标注 出 音节 边界 。 
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6.3 时间 序 列 


支持 向 量 的 时 间 序 列 点 : 


Ci 
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时 间 序列 项 : 


6.4 端点 检测 


语音 信号 处 理 中 的 端点 检测 主要 是 为 了 自动 检测 出 语音 的 起 始点 及 结束 点 。 这 里 


sl 
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我 们 采用 了 双 门 限 比 较 法 来 进行 端点 检测 。 双 门限 比较 法 以 短 时 能 量 E 和 短 时 平均 过 
零 率 Z 作为 特征 ， 结 合 两 者 的 优点 ， 使 检测 更 为 准确 ， 且 能 够 有 效 降低 系统 的 处 理 时 
间 、 排 除 无 声 段 的 噪声 干扰 ， 从 而 提高 语音 信号 的 处 理性 能 。 


DataB 


locker b = new DataBlocker (10); //means 10ms 


SpeechClassifier s = new SpeechClassifier(10, 0.003, 10, 0); 


b-set 
区 ES 


Predecessor (dataSource); 
Predecessor (b); 


Data d = s.getData(); 


while 


(di= "naLl) t 


if(s.isSpeech()) { 


System.out .println("Speech is detected"); 


else { 


} 


System.out.println("Speech has not been detected"); 


System.out.println(); 


d 


= s.getData(); 


6.5 ”动态 时 间 规整 


对 于 时 间 序 列 ， 以 经 常 使 用 的 欧 氏 距离 来 计算 相似 度 存 在 着 其 很 明显 的 缺陷 。 举 


个 比较 简 


和 的 例子 ， 假 设 有 序列 tsl 为 1,1,1,10,2,3， 序 列 ts2 为 1,1,1,2,10,3， 如 果 用 欧 


氏 距 离 ， 也 就 是 distance[il0j]=(b[j]-a[i)*(b[j]-a[i) 来 计算 ， 则 总 的 距离 和 应 该 为 128， 
应 该 说 这 个 序列 距离 是 非常 大 的 。 这 种 情况 下 就 有 人 开始 考虑 寻找 新 的 计算 时 间 序 列 
距离 的 方法 ， 提 出 了 DTW (Dynamic Time Warping) 算法 ， 这 种 算法 在 语音 识别 、 机 
器 学 习 方 面 起 着 重要 的 作用 。 这 个 算法 是 基于 动态 规划 的 思想 ， 解 决 了 发 音 长 短 不 一 
的 模板 匹配 问题 。 简 单 来 说 ， 就 是 通过 构建 一 个 邻接 和 矩阵， 寻找 最 短路 径 和 。 

还 以 上 面 的 两 个 序列 为 例 , 当 序 列 tsl 中 的 10 和 序列 ts2 中 的 2 对 应 及 序列 tsl 中 
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的 2 和 序列 ts2 中 的 10 对 应 的 时 候 ，distance[3] 及 distance[4] 肯 定 是 非常 大 的 ， 这 就 直 
接 导 致 了 最 后 距离 和 的 膨胀 。 这 种 时 候 ， 我 们 需要 来 调整 时 间 序 列 。 如 果 让 序列 tsl 
中 的 10 和 序列 ts2 中 的 10 对 应 ， 序 列 tsl 中 的 1 和 序列 ts2 中 的 2 对 应 ， 那 么 最 后 的 
距离 和 就 大 大 缩短 ， 这 种 方式 可 以 看 作 是 一 种 时 间 扭 曲 。 看 到 这 里 的 时 候 ， 相 信 会 有 
人 提出 “为 什么 不 能 使 序列 tsl 中 的 2 与 序列 ts2 中 的 2 对 应 ”的 问题 ， 那 样 距离 和 肯 
定 是 0， 距离 应 该 是 最 小 的 , 但 这 种 情况 是 不 允许 的 ， 因 为 序列 tsl 中 的 10 是 发 生 在 2 
的 前 面 ， 而 序列 ts2 中 的 2 则 发 生 在 10 的 前 面 ， 对 应 方式 交叉 会 导致 时 间 上 的 混乱 ， 
不 符合 因果 关系 。 两 个 序列 对 齐 的 方式 如 图 6-1 所 示 。 


图 6-1 两 个 序列 对 齐 


接 下 来 ， 以 output[5][5]〈 所 有 的 记录 下 标 从 0 开始 ， 开 始 时 全 部 置 0) 记录 tsl 和 
ts2 之 间 的 DTW 距离 .这 个 算法 其 实 就 是 一 个 简单 的 动态 规划 , 循环 等 式 为 output[il]D]= 
Min(Min(output[i-1]0],output[il0j-1]),output[i-1]0-1)+ distance[il0j], 最 后 得 到 的 output[5][5] 
就 是 我 们 所 需要 的 DTW 距离 。DTW 距离 计算 依赖 关于 图 如 图 6-2 所 示 。 


《9 + dP2Pil[j] 


+ dP2PDi[] 


Con) 0 


图 6-2 DTW 距离 计算 依赖 关系 图 
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DTW 距离 实现 代码 如 下 : 
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return D[i][j]; 


测试 : 
public static void main(String[] args) { 

double[] tsl = { 1,1,1,10,2,3}; // 第 一 个 序列 

double[] ts2 = { 1,1,1,2,10,3}; // 第 二 个 序列 

System.out .println (DTWDistance (tsl,ts2)); // 输 出 两 个 序列 的 相似 度 
} 


上 述 代 码 输出 结果 为 2。 因为 序列 tsl 中 的 1 对 应 序列 ts2 中 的 2， 序 列 tsl 中 的 2 
对 应 序列 ts2 中 的 3， 这 两 点 差异 加 起 来 为 2。 


6.6 ” 传 里 叶 变 换 


将 音频 数据 提取 到 一 个 数组 后 ， 可 以 将 YX 个 数据 样本 传递 给 计算 离散 傅 里 叶 变 换 
的 函数 〈 或 更 有 效 地 快速 傅 里 叶 变换 ) 。 


6.6.1 离散 傅 里 时 变换 


离散 傅 里 叶 变 换 (DFT) 是 数字 信号 处 理 (DSP) 的 一 种 基本 但 非常 通用 的 算法 。 
这 里 从 头 开始 逐步 讲解 实现 算法 的 步骤 。 

音频 信号 可 以 分 解 成 为 不 同 振幅 、 频 率 、 相 位 的 正弦 波 倒 加 。 波 的 相位 用 复数 来 
表示 。 离 散 傅 里 叶 变 换 总 体 上 是 一 个 将 n 个 复数 的 向 量 映射 到 n 个 复数 的 另 一 个 向 量 
的 函数 。 使 用 基于 0 的 索引 ， 令 x*(D) 表 示 输 入 向 量 的 第 t 个 元 素 ， 并 让 XK 及 表示 输出 向 
量 的 第 大 个 元 素 ， 然 后 基本 的 离散 傅 里 叶 变 换 由 以 下 公式 给 出 : 


XA) = x()e 


其 中 ， 向 量 x 表示 各 个 时 间 点 的 信号 水 平 ; 向 量 瑟 表示 各 个 频率 下 的 信号 水 平 。 上 述 
公式 的 含义 是 ， 频 率 大 处 的 信号 水 平等 于 每 个 时 间 +t 的 信号 水 平 乘 以 复数 指数 的 和 。 
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离散 傅 里 叶 变 换 采用 n 个 复数 的 输入 向 量 , 并 计算 个 复数 的 输出 向 量 。 由 于 Java 
没有 原生 的 复数 类 型 ， 所 以 我 们 将 用 一 对 实数 手动 模拟 一 个 复数 。 向 量 是 一 个 数字 序 
列 ， 可 以 用 数组 表示 。 编 写 一 个 骨架 方法 : 


编写 外 部 循环 ， 为 每 个 输出 元 素 分 配 一 个 值 : 


虽然 看 起 来 求 和 符号 很 吓人 ， 但 是 实际 上 很 容易 理解 。 有 限 求 和 的 一 般 形 式 仅仅 
意味 着 : 


f= (0) +f (atD)t+f (bl)+ f(b) 


下 面 看 看 我 们 如 何 取 代 j 的 值 。 在 代码 中 ， 它 看 起 来 像 这 样 : 


复数 的 加 法 很 容易 : 
(atbi)+(c+di) = (atc)+(b+d)i 
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复数 的 乘法 稍微 难 一 些 ， 使 用 分 配 律 和 阅 = -1， 得 
(atbi)(c+di) =ac + adi + bci-bd = (ac-bd) + (ad+baji 
欧 拉 公式 告诉 我 们 ， 对 于 任何 实数 x， 有 
e = cosx + isinx 
而 且 余弦 是 偶 函 数 ， 因 此 cos(-x)=cosx; 正弦 是 奇 函 数 ， 所 以 sin(-x)=-sinx。 通 过 
替换 ， 得 


i | i tk ee tk Wh tk 
e2ritktn"=eC2rtkt/mi=cos(-2r 一 )+isin(C2x 一 )=cos(2r 一 )-isn(2x 一 ) 
n n n n 


设 Re(x) 是 x 的 实 部 ， 并 设 Im(x) 是 x 的 虚 部 。 根 据 定义 ，x = Re(x) +iIm(x)， 因 此 


-2xitk/n 


x(f)e = [Re(x(D))+HiIm(x(M))][ cos (2 "和 )-isin(2 xz )] 


展开 复数 乘法 ， 得 
xD et/" = [Re(x(D)) cos (2 和 ) + Im(x(/))sin( 2 xz )] 
+ 1[-Re(x(D)) sin( 2 二 ) + Im(x(f)) cos (2 xz )] 


因此 ， 总 和 中 的 每 一 项 都 有 这 个 实 部 和 虚 部 的 代码 : 

double angle = 2 * Math.PI *t*Kk/n; 

double real = inreal[t] * Math.cos (angle) + inimag[t] * Math.sin(angle); 
double imag = -inreal[t] * Math.sin(angle) + inimag[t] * Math.cos(angle); 


将 每 个 项 目 求 和 的 代码 合并 到 总 的 代码 中 ， 我 们 就 完成 了 操作 。 


static void dft(double[] inreal , double[] inimag, 
double[] outreal, double[] outimag) { 
int n = inreal.length; 


for (int k = 0; k <n; k++) { // 对 于 每 个 输出 元 素 
double sumreal = 0; 
double sumimag = 0; 
for (int 七 = 0; 七 < n; tt+) { // 对 于 每 个 输入 元 素 
double angle = 2 * Math.PI *t*Kk/n; 
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sumreal += inreal[t] * Math.cos (angle) + inimag[t] * Math.sin(angle); 
sumimag += -inreal[t] * Math.sin(angle) + inimag[t] * Math.cos (angle) 7 


} 
outreal[k] = sumreal; 
outimag[k] = sumimag; 


6.6.2 ”快速 傅 里 时 变换 

有 多 种 离散 傅 里 叶 变换 的 快速 算法 ， 最 常见 的 是 Cooley-Tukey 算法 。 一 般 快 速 傅 
里 叶 变 换 (FFT) 算法 就 是 Cooley-Tukey 算法 。 这 一 方法 以 分 治 法 为 策略 ， 递 归 地 将 
长 度 为 N=NiN; 的 离散 傅 里 叶 变换 分 解 为 长 度 为 Ni 的 入 个 较 短 序列 的 离散 傅 里 叶 变 
换 ， 以 及 与 O(N) 个 旋转 因子 的 复数 乘法 。 最 简单 的 情况 ， 假 设 N=2， 有 : 


X(k)= cm =x(0)+x(l)e™ 


当 有 0 时 ，X(0)=x(0)+x(1)。 
当 厂 1] 时 ，X(1)=x(0)-x(1)。 
计算 给 定 复 向 量 的 离散 傅 里 叶 变换 ， 并 将 结果 存 到 向 量 中 。 向 量 的 长 度 必须 是 2 
的 乘 方 。 使 用 Cooley-Tukey 算法 〈 按 时 间 抽取 基数 2 算法) 的 实现 代码 如 下 : 
public static void transformRadix2 (double[] real, double[] imag) { 
// 长 度 变 量 


int n = real.length; 
if (n != imag.1length) 
throw new IllegalArgumentException ("Mismatched lengths"); 
int levels = 31 - Integer.numberofLeadingZzeros (n) ; //Equal to floor (lo0g2(n)) 
if (1 << levels != n) 
throw new IllegalArgumentException("Length is not a power of 2"); 


/ /构建 三 角 函 数 表 

double[] cosTable = new double[n / 2]; 
double[] sinTable = new double[n / 2]; 
Eor: (int i= 07 < nn 2 1+) 4 


“110” 


计算 任意 长 度 向 量 的 FFT 需要 使 用 循环 卷 积 。 计 算 给 定 复数 向 量 的 循环 卷 积 ， 每 
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个 向 量 的 长 度 必 须 相同 。 
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计算 给 定 复 向 量 的 离散 傅 里 叶 变 换 ， 并 将 结果 存 到 向 量 中 , 向量 可 以 有 任何 长 度 。 


public static void transform(double[] real，double[] imag) { 
int n = real.length; 
if (n != imag.length) 
throw new IllegalArgumentException("Mismatched lengths"); 
if (n == 0) 
return; 
else if ((n & (n - 1)) == 0) // 是 2 的 寡 
transformRadix2 (real, imag); 
else // 用 于 任意 长 度 的 更 复杂 算法 
transformBluestein (real, imag); 
} 


根据 FFT 的 输出 结果 可 以 得 到 幅度 和 相位 。 幅 度 被 编码 为 复数 的 模 , 例如 Audacity 
中 显示 的 频谱 图 ， 其 中 了 轴 的 值 可 以 看 成 是 复数 的 模 (sqrt(x*+y))。 而 相位 被 编码 为 
角度 (atan”Gy,x)) 。 正 频率 代表 逆 时 针 的 圆周 运动 ， 负 频率 代表 顺 时 针 的 圆周 运动 。 


6.7 MFCC 特征 


以 梅 尔 倒 普 系数 MFCC 为 例 ， 对 语音 信号 处 理 如 下 。 

。 输入 16kHz 采样 音频 。 

e 以 一 个 25ms 的 窗口 (每 次 移动 10ms 将 输出 一 个 向 量 序列 ) 产生 数值 序列 。 
e 乘 以 Windows 函数 。 例 如 ， 海 明 距 离 。 

。 执行 快速 傅 里 叶 变 换 。 

。 在 每 个 频率 桶 中 记录 能 量 ， 也 就 是 计算 每 个 频率 区 间 的 能 

。 执行 离散 余弦 变换 (DCT) ， 得 到 “ 倒 谱 ”。 

e 保留 倒 谱 的 前 13 个 系数 。 

在 深度 学 习 中 ， 可 以 直接 读 取 声音 的 波形 文件 ， 不 用 MFCC 特征 。 
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6.8 说 话 者 识别 


不 同 的 说 话 者 在 一 个 通用 声学 禾 内 具有 不 同 的 子 空间 。 从 通用 簇 偏 移 的 子 空间 描 
述 了 样本 的 方向 向 量 ， 其 取决 于 说 话 者 的 语言 文本 。 为 了 获得 相关 的 仅 包 含 说 话 者 的 
特征 ， 将 这 些 向 量 分 析 为 特征 因子 。 分 析 的 因子 特征 称 为 身份 向 量 (identity vectors 即 
I-vectors) ，i-vectors 在 语音 段 中 传达 说 话 者 特性 。 我 们 可 以 使 用 i-vectors 来 识别 说 话 
者 ， 例 如 ， 通 过 计算 两 段 语音 表示 的 两 个 向 量 之 间 的 余弦 距离 来 作为 这 两 段 语音 是 否 
来 源 于 同一 个 说 话 者 的 衡量 指标 。 


6.9 解码 


在 Kaldi 工具 包 中 ， 没 有 单一 的 “规范 ”解码 器 或 解码 器 必须 满足 的 固定 接口 。 

方面 上 有 SimpleDecoder 和 FasterDecoder 解码 器 , 还 有 词 图 生成 解码 器 。 可 用 ( 参 
见 词 图 生成 解码 器 ) 。 有 命令 行程 序 包装 这 些 解 码 器 ， 以 便 它 们 可 以 解码 特定 类 型 的 
模型 (如 GMM) ， 或 者 具有 特定 的 特殊 条 件 〈 如 多 类 fMLLR) 。 解 码 的 命令 行程 序 
示例 是 gmm-decode-simple、gmm-decode-faster、gmm-decode-kaldi 和 gmm-decode-faster- 
fmllr。 我 们 已 经 避免 创建 一 个 可 执行 所 有 可 能 类 型 的 解码 命令 行程 序 ， 因 为 这 可 能 很 
快 会 变 得 难以 修改 和 调试 。 

为 了 最 小 化 解码 器 和 声学 建 模 代码 之 间 的 相互 作用 ， 我 们 创建 了 一 个 基 类 
(DecodableInterface) ， 可 以 将 DecodableInterface 对 象 视 为 声学 模型 和 特征 文件 的 包装 
器 。 这 似乎 是 一 个 有 点 不 自然 的 对 象 。 但 是 ， 它 的 存在 有 一 个 很 好 的 理由 。 声 学 模型 
和 特征 之 间 的 相互 作用 可 能 非常 复杂 (考虑 使 用 多 个 变换 进行 自 适 应 ) ， 并 且 通 过 将 
特征 从 解码 器 中 取出 ， 可 以 大 大 简化 解码 器 必须 知道 的 内 容 。 

解码 器 的 基本 操作 是 “解码 DecodableInterface 类 型 的 这 个 对 象 ”。 解码 接口 如 下 : 


class DecodableInterface { 
public: 


a 
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// 返 回 对 数 似 然 值 


//“ 帧 ”从 0 开始 . 在 调用 此 函数 之 前 ,应 该 验证 ISLastFrame (frame-1) 是 否 返回 false 
Virtual BaseFloat LogLikelihood(int32 frame, int32 index) = 0; 


// 如 果 这 是 最 后 一 帧 , 则 返回 true 


Virtual bool IsLastFrame (int32 frame) const = 07 


// 调 用 NumEFramesReady () 将 返回 这 个 可 解码 对 象 当前 可 用 的 帧 数 
Virtual int32 NumFramesReady () const { 
KALDI ERR << "NumFramesReady () not implemented for this decodable type."; 
return =-17 
} 


// 返 回声 学 模型 中 的 状态 数 
// 从 1 开始 家 引 状态 数 , 即 从 1 到 NumIndices() ;这 是 为 了 与 OpenFst 兼容 


Virtual int32 NumIndices() const = 0; 


virtual ~DecodableInterface() {} 

] 7 

1. SimpleDecoder 

SimpleDecoder 是 较 简 单 的 解码 器 ， 主 要 用 于 参考 和 调试 更 高 度 优化 的 解码 器 。 
SimpleDecoder 的 构造 函数 使 用 FST 进行 解码 ， 并 使 用 解码 束 。 

SimpleDecoder (const fst::Fst<fst::StdArc> gfst, BaseFloat beam); 

解码 话语 是 通过 以 下 函数 完成 的 。 

void Decode (DecodableInterface gdecodable); 

构造 一 个 Decodable 对 象 并 对 其 进行 解码 。 


DecodableamDiagGmmSscaled gmm decodable(am gmm, trans model, features, 
acoustic scale); 


decoder .Decode (gmm decodable); 
DecodableAmDiagGmmScaled 类 型 是 一 个 非常 简单 的 对 象 , 给 定 一 个 transition-id， 
从 trans_model (类 型 TransitionModel) 得 到 适当 的 pdf-id， 从 这 些 特征 (类 型 Matrix 
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<BaseFloat>) 中 获取 相应 的 行 ， 得 出 来 自 am _gmm (类 型 AmDiagGmm) 的 可 能 性 ， 
并 通过 acoustic_scale〈 类 型 float) 进行 缩放 。 

调用 Decode 函数 后 ， 我 们 可 以 通过 以 下 调用 获取 回溯 。 

bool GetBestPath (Lattice *fst out); 

输出 格式 是 一 个 词 图 ， 但 只 包含 一 个 路 径 。 词 图 是 有 限 状态 转换 器 ， 其 输入 和 输 
出 标签 是 FST 上 的 任何 标签 (通常 分 别 为 transition-id 和 单词 ) ， 其 权重 包含 声学 、 语 
言 模型 和 转换 权重 。 

SimpleDecoder 的 工作 原理 如 下 。 

此 解码 器 在 标记 级 别 存储 回溯 。 标 记 的 类 型 为 SimpleDecoder::Token, 它 具 有 以 下 
成 员 变量 。 


class Token { 
public: 


Arc arc ; 


Token *prev 7 
int32 ref count ; 


Weight weight ; 


上 述 代 码 中 ，Arc 类 型 的 成 员 (这 个 成 员 是 fst :: StdArc 的 typedef) 是 原始 FST 中 
边 的 副本 ,只 是 添加 了 声学 似 然 贡 献 , 它 包含 输入 和 输出 标签 、 权 重 和 下 一 个 状态 (在 
FST 中 ); prev 成 员 用 于 追溯 ; ref count 用 于 垃圾 收集 算法 ; Weight 是 fst::StdArc::Weight 
的 typedef， 实 质 上 它 只 存储 一 个 浮 点 值 ， 表 示 到 目前 为 止 的 累计 成 本 。 

SimpleDecoder 类 只 包含 4 个 数据 成 员 ， 声 明 如 下 : 


unordered map<StatelId, Token*> cur toks ; 


unordered map<StatelId, Token*> prev toks ; 
const fst::Fst<fst::StdArc> gfst ; 


BaseFloat beam ; 
上 述 成 员 中 的 最 后 两 个 ( 即 fst_ 和 beam ) 在 解码 期 间 是 恒定 的 。 成 员 cur_toks 和 
prev_toks 分 别 存储 当前 帧 和 前 一 帧 的 当前 活动 标记 。 函 数 DecodeO 的 中 心 循环 如 下 : 
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for (int32 frame = 0; !decodable.IsLastFrame (frame-1); frame++) { 
ClearToks (prev toks ); 
std::swap(cur toks , prev toks ); 
ProcessEmitting (decodable, frame); 
ProcessNonemitting(); 
PruneToks (cur toks , beam ); 
i 


除了 ProcessEmitting() 和 ProcessNonemitting() 以 外 ,这些 语句 都 是 不 言 自明 的 。 
函数 ProcessEmitting() 将 标记 从 prev_toks 传递 到 cur toks 。 它 只 考虑 发 射 边 ( 即 
具有 非 零 输入 标签 的 边 ) 。 对 于 prev_toks_ 中 的 每 个 标记 (如 tok) ， 它 会 查看 与 标 
记 相 关联 的 状态 (在 tok-> arc_.nextstate 中 )， 并且 对 于 正在 发 出 的 状态 中 的 每 个 边 ， 
它 会 创建 一 个 带 有 标记 的 新 标记 。 回 溯 到 tok 并 从 该 边 处 理 arc_ 字段， 除了 相关 的 权 
重 ， 更 新 以 包括 声学 贡献 。 表 示 到 此 时 为 止 的 累计 成 本 的 weight 字段 将 是 tok-> 
weight 的 总 和 《在 半 环 解释 中 ， 就 是 乘积 ) 和 最 近 添 加 的 边 的 权重 。 每 次 尝试 向 
cur toks 添加 新 标记 时 ， 必 须 确保 没有 与 相同 FST 状态 关联 的 现 有 标记 。 如 果 有 ， 
则 只 保留 最 好 的 。 

函数 ProcessNonemitting() 仅 处 理 cur toks 而 不 处 理 prev_toks_; 它 传递 不 发 射 的 
边 ， 即 带 有 零 / <eps> 的 边 作为 输入 标签 /符号 。 新 创建 的 标记 将 指向 cur_toks_ 中 的 其 他 
标记 ， 边 上 的 权重 将 只 是 FST 的 权重 。ProcessNonemitting() 可 能 必须 处 理 epsilons 链 ， 
它 使 用 队列 来 存储 需要 处 理 的 状态 。 

解码 后 ， 函 数 GetOutput0 将 从 最 终 状 态 下 最 可 能 的 标记 追溯 (考虑 到 它 的 最 终 概 
率 ， 如 果 is_final 一 tue) ， 并 在 追溯 序列 中 为 每 个 边 产生 一 个 线性 FST。 这 些 可 能 比 
帧 数 更 多 ， 因 为 我 们 为 不 发 射 的 边 创 建 了 单独 的 标记 。 


2. FasterDecoder 

FasterDecoder 是 一 种 更 优化 的 解码 器 。 解 码 器 FasterDecoder 与 SimpleDecoder 具 
有 几乎 完全 相同 的 接口 。 唯 一 重要 的 新 配置 值 是 “max-active”， 它 控制 一 次 可 以 激活 
的 最 大 状态 数 。 除 了 强制 执行 最 大 活动 状态 以 外 ， 唯 一 的 主要 区 别 是 与 数据 结构 相关 
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的 状态 。 我 们 用 新 类 型 HashList<StateIld，Tokenx> 蔡 换 std::unordered_map<StateId， 
Token*> 类 型 ， 其 中 HashList 是 为 某 目的 创建 的 模板 类 型 ， 存 储 单 链表 结构 ， 其 元 
素 也 可 通过 散 列 表 访 问 ， 并 且 它 提供 了 为 新 列表 结构 释放 散 列 表 的 功能 ， 同 时 提供 
对 旧 列 表 结 构 的 顺序 访问 。 这 样 我 们 就 可 以 使 用 散 列 表 来 访问 原来 在 SimpleDecoder 
中 的 cur toks ， 同 时 仍然 可 以 以 列表 的 形式 访问 原来 在 SimpleDecoder 中 的 
prev_toks 。 

主 修剪 步骤 FasterDecoder 在 ProcessEmitting 中 进行 。 从 概念 上 讲 ， 我 们 在 
SimpleDecoder 中 的 标记 是 prev_toks ， 在 ProcessEmitting 之 前 可 以 使 用 束 和 指定 的 最 
大 活动 状态 数 〈 以 较 小 者 为 准 ) 进行 修剪 。 实 现 的 方法 是 调用 一 个 函数 GetCutoff0， 
返回 一 个 权重 截止 值 “weight_cutoff”， 此 截止 值 适用 于 prev_toks_ 中 的 标记 。 当 通过 
prev_toks _〔 这 个 变量 在 FasterDecoder 中 不 存在 ， 但 在 概念 上 这 样 理解 ) 时 ， 我 们 只 
处 理 那些 比 cutoff 更 好 的 标记 。 

与 cutoff 相关 的 FasterDecoder 中 的 代码 比 仅 具 有 一 个 修剪 步骤 要 稍微 复杂 一 些 。 
基本 的 观察 是 这 样 的 一 如 果 你 以 后 只 是 忽略 大 部 分 标记 ， 那 么 创造 大 量 的 标记 毫 无 意 
义 。 因 此 ， 在 ProcessEmitting 中 的 情况 是 ， 我 们 有 weight_cutoff， 但 如 果 知道 下 一 帧 的 
weight_cutoff 值 next_weight_cutoff 是 多 少 ， 那 不 就 好 了 吗 ? 然后， 每 当 我 们 处 理 具有 当 
前 帧 的 声学 可 能 性 的 边 时 ， 如 果 可 能 性 比 next_weight_cutoff 差 ， 就 可 以 避免 创建 标记 。 
为 了 知道 下 一 个 权重 ， 必 须知 道 两 件 事 ， 即 必须 知道 下 一 帧 上 最 好 的 标记 权重 及 下 一 帧 
的 有 效 束 宽度 。 如 果 max_active 约束 是 有 限 的 ， 则 有 效 束 宽度 可 以 与 “ 束 ” 不 同 ， 并 且 
我 们 使 用 启发 式 ， 即 有 效 束 宽度 在 帧 与 帧 之 间 不 会 发 生 很 大 变化 。 我 们 尝试 通过 传递 
当前 最 佳 的 标记 来 估计 下 一 帧 的 最 佳 标记 权重 〈 稍 后 ， 如 果 在 下 一 帧 找到 更 好 的 标记 ， 
将 更 新 此 估计 ) 。 通 过 使 用 变量 adaptive beam， 我 们 得 到 下 一 帧 上 有 效 束 宽度 的 粗略 
上 界 。 这 始终 设置 为 较 小 的 “ 束 ” 《指定 的 最 大 束 宽度 ) ， 或 由 max_active 确定 的 有 
效 束 宽度 加 上 beam delta (默认 值 为 0.5) 。 当 说 它 是 一 个 “粗糙 的 上 界 ” 时 ， 意 思 
是 它 通常 大 于 或 等 于 下 一 帧 的 有 效 束 宽度 。 创 建新 标记 时 使 用 的 修剪 值 等 于 对 下 一 帧 
最 佳 标记 的 当前 估计 值 加 上 adaptive_ beam。 对 于 有 限 的 beam_delta， 修 前 可 能 比 单 
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独 的 beam 和 max_active 参数 更 严格 ， 尽 管 在 0.5 这 个 取 值 时 我 们 不 相信 这 种 情况 经 
常 发 生 。 

3. BiglImDecoder 

BiglmDecoder 实现 了 使 用 大 型 语言 模型 进行 解码 。Kaldi 有 两 种 使 用 大 型 语言 模型 
的 基本 方法 : 一 种 方法 是 使 用 小 LM 生成 词 图 ， 并 用 大 LM 重新 校正 该 词 图 (参见 下 
面 的 词 图 生成 解码 器 ， 以 及 Kaldi 中 的 词 图 ) ; 另 一 种 方法 是 使 用 biglm 解码 器 ， 如 
BiglmFasterDecoder。 基 本 思想 是 用 小 文法 创建 解码 图 HCLG， 并 用 大 文法 和 小 文法 之 
间 的 差异 动态 组 合 。 注 意 ， 虽 然 我 们 使 用 “文法 ”一 词 来 与 标准 符号 兼容 ， 但 还 要 考 
虑 统计 语言 模型 。 

想象 一 下 ， 小 文法 是 G (一 个 FST) ， 大 文法 是 G'。 基 本 思想 是 在 解码 时 间 
内 搜索 由 三 重合 成 HCLG 0 G-oG'。 构 建 一 个 按 需 组 合 的 FST， 称 为 F， 即 f= 
G-oG'。 然 后 在 解码 时 ， 我 们 按 需 构建 FSTHCLG oF。 这 样 做 的 问题 是 ， 我 们 总 
是 采用 通过 G 的 最 差 得 分 路 径 ， 例 如 ， 不 正确 地 采取 退 避 边 ， 这 将 使 原始 FST 分 
数 的 减法 不 正确 。 

解决 上 述 问 题 的 方法 是 使 用 一 些 有 关 G 和 G' 结构 的 知识 (假设 它们 是 ARPA 风 
格 的 语言 模型 ) ， 并 将 它们 视 为 无 epsilon、 确 定性 FST。 那 就 是 ， 当 从 具有 特定 输入 
标签 的 特定 状态 搜索 边 时 ， 如 果 找 到 输入 标签 ， 就 接受 它 〈 并 返回 该 边 ) ， 否 则 遵循 
epsilon 转换 ， 并 递归 地 查找 具有 该 标签 的 边 。 我 们 为 这 种 类 型 的 FST 创建 了 一 个 特殊 
的 接口 ， 称 为 ft::DeterministicOnDemandFst， 它 有 一 个 新 图 数 GetArc()， 可 找到 具有 
特定 输入 标签 的 边 (假设 不 能 有 多 个 ) 。G 和 G' 都 是 fst:DeterministicOnDemandFst 类 
型 ， 它 们 的 组 合 也 是 如 此 。 这 意味 着 解码 器 不 必 实 现 通用 的 合成 算法 ， 相 反 ， 每 当 它 
在 HCLG 中 穿 过 边 时 ， 只 需要 更 新 语言 模型 状态 (F 中 的 状态 标识 符 ) 。 解 码 算法 几 
乎 与 基线 完全 相同 ， 除 了 状态 空间 (我 们 使 用 的 散 列 索 引 ) 不 仅仅 是 HCLG 中 的 状态 ， 
而 是 一 对 (HCLG 中 的 状态 ,FF 中 的 状态 ) 。 但 是 这 个 解码 器 相对 于 具有 相同 束 的 解 
码 器 而 言 ， 速 度 仍然 有 点 儿 慢 〈 例 如， 在 典型 设置 中 几乎 慢 12) ， 没 有 biglm 部 分 。 
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原因 似乎 是 使 用 biglm 解码 器 ， 更 多 的 状态 在 束 中 《因为 HCLG 中 的 状态 现在 可 能 
更 多 的 “副本 ”， 对 应 于 HCLG 中 具有 不 同 语言 模型 状态 的 不 同 历史 ) 。 但 是 ， 对 于 
相同 的 束 ，biglm 解码 器 确实 提供 了 比 用 小 文法 产生 的 词 图 重新 校正 更 好 的 准确 性 。 我 
们 认为 ， 原 因 是 更 好 地 修剪 一 一 biglm 解码 器 使 用 更 接近 最 佳 的 语言 进行 维特 比 束 修 
剪 。 当 然 ， 它 仍然 不 如 通过 用 大 文法 编译 的 HCLG 获得 的 修剪 那么 好 ， 因 为 biglm 解 
码 器 仅 在 每 次 跨越 一 个 单词 时 更 新 “好 的 ”语言 模型 得 分 。 

上 述 一 些 解 码 器 的 词 图 生成 版 本 有 LatticeFasterDecoder、LatticeSimpleDecoder 和 
LatticeBiglmFasterDecoder。 
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一 般 而 言 ， 人 工 神经 网 络 具 有 生物 学 动机 ， 意 味 着 它们 试图 模仿 真实 神经 系统 的 
行为 。 就 如 同 真正 神经 系统 中 最 小 的 构建 单元 是 神经 元 一 样 ， 人 工 神经 网 络 中 最 小 的 
构建 单元 是 人 工 神经 元 。 目 前 往往 把 神经 元 按 层次 组 织 成 包括 输入 层 和 输出 层 在 内 的 
多 层 结构 。 除 了 输入 层 和 输出 层 以 外 ， 神 经 网 络 还 有 中 间 层 ， 中 间 层 也 可 以 称 为 隐藏 
层 。 隐 藏 层 也 可 能 称 为 编码 器 。 

浅 层 网 络 隐藏 层 的 数量 较 少 。 虽 然 有 研究 表明 浅 层 网 络 可 拟 合 任何 函数 ， 但 拟 合 
有 些 函 数 需要 非常 “肥胖 ”的 层次 结构 ， 可 能 一 层 就 要 成 千 上 万 个 神经 元 。 而 这 直接 
导致 的 后 果 是 参数 的 数量 增加 很 多 。 深 层 网 络 能 够 以 比 浅 层 网 络 更 少 的 参数 来 更 好 地 
拟 合 函 数 。 

使 用 交叉 炳 目标 训练 前 馈 DNN 声学 模型 。DNN 包括 简单 的 DNN、TDNN (时 延 
神经 网 络 ) 和 CNN ( 卷 积 神经 网 络 )。 


7.1 神经 网 络 基础 


本 节 以 使 用 神经 网 络 实现 XOR 一 一 一 个 简单 的 线性 不 可 分 问题 为 例 ， 讲 解 神经 网 
络 的 基础 知识 。XOR 的 神经 网 络 结构 图 如 图 7-1 所 示 。 


第 7 章 深度 学 习 


7-1 XOR 的 神经 网 络 结构 图 


神经 元 类 实现 代码 如 下 : 
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使 用 这 个 类 实现 XOR 神经 网 络 : 
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for (String val : args) { 
Neuron op = new Neuron (0.0f);// 创 建 输入 神经 元 


op.setWeight (Boolean.parseBoolean (val)); 


// 把 输入 神经 元 接 入 网 络 
left.connect (op); 
right .connect (op); 


} 
Zor.fire(); // 触 发 


// 输 出 预测 结果 


System.out.println ("Result: " + xor.isFired()); 
输出 神经 元 实际 输出 和 期 望 之 间 的 差距 称 为 损失 。 用 损失 函数 来 衡量 实际 输出 和 
期 望 。 


7.1.1 实现 多 层 感 知 器 


前 馈 神 经 网 络 是 一 种 简单 的 神经 网 络 ， 各 神经 元 分 层 排 列 。 每 个 神经 元 只 与 前 一 
层 的 神经 元 相连 ， 接 收 前 一 层 的 输出 ， 并 输出 给 下 一 层 ， 各 层 间 没有 反馈 。 

多 层 感 知 器 (Multilayer Perceptron，MLP) 是 一 种 前 馈 人 工 神经 网 络 模型 ， 可 以 
解决 任何 线性 不 可 分 问题 。 实 现 XOR 的 多 层 感知 器 网 络 结构 如 下 。 

第 一 层 ， 即 输入 层 ， 由 2 个 神经 元 组 成 。 

第 二 层 ， 即 隐藏 层 ， 有 6 个 神经 元 。 

第 三 层 ， 即 输出 层 ， 有 1 个 神经 元 。 

激活 函数 可 以 选择 tanh 函数 (或 sigmoid 函数 等 。tanh() 函 数 的 范围 为 [-1,1]， 而 
sigmoid() 函 数 的 范围 为 [0,1]。 这 里 ,激活 函数 选用 tanh0 函 数 。 这 个 选择 有 以 下 两 个 原 
因 (假设 已 规范 化 数据 ， 这 非常 重要 )。 

e 具有 更 强 的 梯度 。 由 于 数据 集中 在 0 附近 ， 这 附近 的 导数 更 高 。 

。 避免 渐变 中 的 偏见 。 

选用 tanhO 函 数 作为 激活 函数 的 神经 元 类 实现 代码 修改 如 下 : 


public class Neuron { 


public Neuron (int prev n neurons, java.util.Random rand) 
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Layer 类 表示 感知 器 的 一 层 ， 实 现代 码 如 下 : 
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多 层 感知 器 网 络 的 实现 代码 如 下 : 
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使 用 Mlp 训练 对 XOR 分 类 的 神经 网 络 ， 实 现代 码 如 下 : 
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7.1.2 ”计算 过 程 
神经 网 络 的 基本 结构 如 图 7-2 所 示 。 
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图 7-2 神经 网 络 基本 结构 


使 用 一 些 数字 计算 ， 图 7-3 中 是 初始 的 权重 、 偏 差 和 训练 输入 /输出 。 


055 We 一 


久 -060 


图 7-3 设置 具体 权 值 的 神经 网 络 结构 


反 向 传播 的 目标 是 优化 权重 ， 以 便 神 经 网 络 可 以 学 习 如 何 正 确 映 射 任意 输入 到 输 
出 。 对 于 其 余部 分 ， 我 们 将 使 用 单个 训练 集 一 一 给 定 输入 0.05 和 0.10， 希望 神经 网 络 输 
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出 0.01 和 0.99。 


首先 ， 让 我 们 看 看 神经 网 络 在 给 定 如 图 7-3 中 的 权重 和 偏差 时 ， 对 于 输入 0.05 和 


0.10， 预 测 的 是 什么 。 为 此 ， 我 们 将 通过 网 络 向 前 馈 传送 这 些 输 入 。 


计算 加 的 总 净 输 入 : 
neth=wiXiit+wxisot+bixl1 
neth=0.15 x0.05+0.2x0.1+0.35 x1=0.3775 


使 用 逻辑 函数 对 其 进行 压缩 以 获得 加 的 输出 : 


1 1 
outh, = = = 0.593269992 


l+e™™ 1+e 


对 有 执行 相同 的 操作 ， 得 
outh = 0.596884378 
为 输出 层 神经 元 重复 上 述 过 程 ， 使 用 隐藏 层 神经 元 的 输出 作为 输入 。 
以 下 是 ol 的 输出 : 
neto, 一 W5X outh 十 W6x outh, + bx 1 


Heto = 0.4 x 0.593269992 + 0.45 x 0.596884378 + 0.6 x 1 = 1.105905967 


1 1 
ON OSL36507 


| @ "a | © 
对 oz 执行 相同 的 操作 ， 得 
outo, = 0.772928465 
接 下 来 计算 总 误差 : 


所 二 70ose —output) 
例如 ，o1 的 目标 输出 为 0.01， 但 神经 网 络 输出 为 0.75136507， 因 此 其 误差 为 


1 2_1 2 
BE = 了 (argen -ou ) -了 (0.01- 0.75136507) =0.274811083 
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对 o 重 复 上 述 过 程 〈 目 标 为 0.99) ， 得 
Eo, = 0.023560026 
神经 网 络 的 总 误差 是 这 些 误 差 的 总 和 ， 得 
Eiotal = Eu+Eu=0.274811083+0.023560026=0.298371109 
我 们 使 用 反 向 传播 的 目标 是 更 新 网 络 中 的 每 个 权重 ， 以 便 它们 让 实际 输出 更 接近 
目标 输出 ， 从 而 最 大 限度 地 减少 每 个 输出 神经 元 和 整个 网 络 的 误差 。 
我 们 想 知道 ws ( 某 个 权重 值 ) 的 变化 对 总 误差 的 影响 有 多 大 , 也 就 是 计算 : a 


OF, 
-本 读 作 “ 关 于 ws 的 Bom 的 偏 导数 ”， 也 可 以 说 “关于 ws 的 梯度 ”。 


通过 应 用 求 复合 函数 导数 的 链 式 法 则 ， 我 们 知道 
Ou BE x outa Onet, 
Ow Gout, Onet, Ows 

用 可 视 化 的 方式 展现 我 们 正在 做 的 事情 ， 如 图 7-4 所 示 。 


output 
h 


Ws 
E,= 1 
局 0=7 (targeto,~outo,y 


Bw=Eo,+Eo, 


图 7-4 Eto 对 ws 求 偏 导 数 


我 们 需要 找 出 这 个 方程 中 的 每 一 部 分 。 首 先 ， 求 总 误差 相对 于 输出 的 变化 。 
Bi = (rset, —out, )” + 3 (target,, 一 Out 


BE 


Oout,, 


1 2 
二 站 F(argeta —outs) x(-D)+0 
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oF 


total 
Oout, 


=—(target, -ou )=-(0.01-0.75136507)= 0.74136507 


当 对 ou 取 总 误差 的 偏 导数 时 ,二 (iargef。 oul。 变 为 0, 因为 ouo, 不 会 影响 它 ， 
这 意味 着 我 们 正在 取 一 个 常数 为 0 的 导数 。 

接 下 来 ， 求 01 的 输出 相对 于 其 总 净 投入 量 的 变化 。 

逻辑 函数 的 偏 导数 是 输出 乘 以 〈1 减 去 输出 ) ， 得 


= 
l+e™™ 


Outo, = 


Oout. 
4 out, (1 —out, )=0.75136507(1—0.75136507) = 0.186815602 
Onet,, 


最 后 ， 求 ol 的 总 净 输 入 相对 于 ws 的 变化 。 


neto, = ws x outh, + we x outh, 十 Da x 1 


Onet, pe 
三 1x Oul, XWs 十 0+0= Out = 0.593269992 


与 


把 它们 放 在 一 起 ， 得 


BE _ OE Oouts Onet, 
Ow Gout, Onet, Ow 


Em =0.74136507x0.186815602 x 0.593269992 = 0.082167041 


为 了 减少 误差 ， 我 们 从 当前 权重 中 减 去 这 个 值 〈 可 选 地 乘 以 某 个 学 习 率 eta， 我们 
将 其 设置 为 0.5) ， 得 


二 =0.4—0.5x0.082167041= 0.35891648 


3 


本 二 ws 
Wi = 一 77X 


重复 这 个 过 程 可 以 获得 新 的 权重 we、w7 和 ws， 得 
@: =0.408666186 


@; =0.511301270 


@; =0.561370121 
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在 将 新 权重 引入 隐藏 层 神经 元 后 ， 才 执行 神经 网 络 中 的 实际 更 新 〈 即 当 继 续 使 用 
下 面 的 反 向 传播 算法 时 ， 我 们 是 使 用 原始 权重 ， 而 不 是 使 用 更 新 后 的 权重 ) 。 
接 下 来 ， 我 们 将 通过 计算 wi1、w2、w3 和 ws 的 新 值 来 继续 向 后 传递 。 
从 大 的 方面 来 说 ， 以 下 是 我 们 需要 和 弄 清楚 的 。 
GE au , Oouh, neh 
OW 6ox 加 6neh 6 
Etotal 对 w1 求 偏 导数 如 图 7-5 所 示 。 
OEws OF Ooul,, Onets 
Bw ~ oul, Bnet OW 


BE OEo, , OEo, 


Gout, Oouts,, Oouts, 


图 7-5 Eto 对 wi 求 偏 导 数 


我 们 将 使 用 与 处 理 输出 层 类 似 的 过 程 ， 但 略 有 不 同 ， 以 说 明 每 个 隐藏 层 神经 元 的 
输出 对 多 个 输出 神经 元 的 输出 贡献 (并 因此 产生 误差 )。 我 们 知道 out 同时 影响 outo, 
和 outw， 因 此， 需要 考虑 它 对 两 个 输出 神经 元 的 影响 ， 得 

agou OFa , OF 


0 


Gout 6oxt Oouts, 
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OE, 
从 Oouts, 开始 
OE, _ OE, Onet, 
Ooulh, Onet, Oout, 
Sy ~ > oF, 
使 用 之 前 计算 的 值 来 计算 一: 
er 
OF OF Oout. 
2 = 一 一 x 一 一 =0.74136507x0.186815602 = 0.138498562 
Onet, Oout, Onet, 
Onet, 
do 45， 推导 过 程 如 下 : 
oz 加 
net, = ws Xouts, + we Xout, +b, x1 
Onet. 
=w=0.40 
Oouts, 
代入 这 些 值 ， 得 
OE, OF, net 
= -一 x 一 一 =0.138498562x 0.40 = 0.055399425 
Gox 加 6net Gout 
对 于 忆 = ， 按 照相 同 的 过 程 ， 得 
oz 加 
OF, 
=—0.019049119 
Oout, 
OF ok, 
因此 ， Eu -一 。 | -一 。 -0.055399425+ (-0.019049119) = 0.036350306 
Gout®y, Oout, Oouts, 
现在 有 名和， 我 们 需要 计算 出 了 ， 然 后 为 每 个 权重 计算 出 zeu ， 得 
岗 在 Bout, 门 T 人 后 [ T a 不 
1 
Out = Te 
Oout, 
a = Out (1 ~—outs, ) = 0.59326999x(1 一 0.59326999) = 0.241300709 
nets 


计算 总 的 网 络 输入 到 加 对 于 wi 的 偏 导 数 ， 得 
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1e 丰 三 Wi Xi+w Xi +hb xl 
Onet, 
— =i=0.05 

1 
把 这 些 值 放 在 一 起 ， 得 
OE GE 有 Gox 加 四 Onels, 
OW Ooul, Oneth Ow 


1 


Em =0.036350306x0.241300709 x 0.05 = 0.000438568 


得 


更 新 wl: 
Ww =W -Nx 一 - =0.15—0.5x0.000438568 =0.149780716 


1 
对 ws、ws 和 ws 重复 此 操作 ， 得 
@} = 0.19956143 


ol =0.24975114 
Oo = 0.29950229 
最 后 ， 我 们 已 经 更 新 了 所 有 的 权重 。 当 最 初 输入 0.05 和 0.1 时 ， 网 络 的 误差 为 
0.298371109。 在 第 一 轮 反 向 传播 后 ， 总 误差 降 至 0.291027924。 下 降 的 幅度 可 能 看 起 来 
并 不 多 ， 但 是 在 重复 此 过 程 10 000 次 后 ， 误 差 直线 下 降 到 0.0000351085。 此 时 ， 再 输 
入 0.05 和 0.1， 两 个 输出 神经 元 输出 0.015912196 (和 0.01 的 目标 值 相 比较 ) 和 0.984065734 
(和 0.99 的 目标 值 相 比 较 ) 。 


7.2 卷 积 神 经 网 络 


随 着 深度 神经 网 络 技术 的 成 熟 和 发 展 ， 识 别 图 像 往往 采用 层 数 很 深 的 神经 网 络 。 
输入 层 和 隐藏 层 之 间 是 通过 权 值 连接 起 来 的 ， 如 果 把 输入 层 和 隐藏 层 的 神经 元 全 
部 连接 起 来 ， 那 么 权 值 数量 有 点 太 多 了 。 例 如 ， 对 于 一 幅 1000X 1000 大 小 的 图 像 ， 输 
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入 层 的 神经 元 个 数 就 是 像素 点 之 和 ， 个 数 为 1000X 1000 个 。 再 假设 和 这 个 输入 层 连接 
的 隐藏 层 的 神经 元 个 数 为 1000 000 个 ， 那 么 权 值 数量 就 是 1000 X 1000X1000 000。 

对 于 给 定 的 输入 图 片 ， 用 一 个 卷 积 核 处 理 这 张 图 片 ， 也 就 是 说 一 个 卷 积 核 处 理 整 
张 图 ， 所 以 权重 是 一 样 的 ， 这 称 为 权 值 共 享 。 卷 积 层 提取 出 特征 ， 再 进行 组 合 ， 形 成 
更 抽象 的 特征 ， 最 后 形成 对 图 片 对 象 的 描述 特征 。 

卷 积 神经 网 络 (Convolutional Neural Network，CNN) 具有 独特 的 结构 ， 旨 在 模仿 
真实 动物 大 脑 的 运转 方式 ， 而 不 是 让 每 层 中 的 每 个 神经 元 连接 到 下 一 层 中 的 所 有 神经 
元 〈 多 层 感知 器 ) ， 神 经 元 以 三 维 结构 排列 ， 以 便 考虑 不 同 神经 元 之 间 的 空间 关系 。 

卷 积 神经 网 络 一 般 采 用 卷 积 层 与 采样 层 交 蔡 设 置 , 即 一 个 卷 积 层 后 接 一 个 采样 层 ， 
采样 层 后 接 一 个 卷 积 层 。Java 实现 代码 如 下 : 


DataSet dataSet = new Dataset ("dataset/data.ds", 0.3); 


System.out.println (dataset .getTrainsize()); /1 训练 样本 大 小 

// 定 义 网 络 结构 

Cnn cnn = new CnnBuilder (50) // 取 样 的 批 大 小 
.setInputLayer (new Size(28, 28)) // 输 入 层 
.addConvolutionalLayer(6，new Size(5，5)) // 卷 积 层 
.addsimpleLayer (new Size(2, 2)) // 采 样 层 


.addConvolutionalLayer (12, new Size(5, 5)) 


.addSimpleLayer (new Size(2, 2)) 


.setoutputLayer (10) // 输 出 层 , 识别 10 个 数字 ,所 以 是 10 个 神经 元 
.build(); 
long now = System.currentTimeMillis(); 
cnn.train (dataset, 3); // 和 迭代 3 次 ,适当 增加 迭代 次 数 可 以 提高 精度 
System.out .println("cost:" + (System.currentTimeMillis() - now)); 
// 花 费时 间 
cnn.saveModel ("demo.model"); // 保 存 模型 文件 


训练 需要 较 长 的 时 间 ， 在 有 的 计算 机 上 从 代 100 次 需要 1 个 多 小 时 。 
测试 训练 出 的 模型 : 

Cnn cnn = Cnn.readModel ("demo .model") ; // 加 载 模型 文件 

final int[] testRight = { 0 }; 
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final int[] testCount = { 0 }; 
DataSet dataSet = new DataSet ("dataSet/data.ds", 0.3); 


dataSet .testRecordForEach (record -> { 

if (cnn.test(record)) { 

testRight [0]++; 

} 

testCount [0]++; 
1D); 
double testP = 1.0 * testRight[0] / testCount[0]; 
logger.info("test precision " + testRight[0] + "/" + testCount [0] + "=" + 


testP); // 输 出 精度 

实际 使 用 卷 积 神经 网 络 时 ， 一 个 卷 积 层 对 应 多 个 卷 积 核 ， 每 个 卷 积 核 计算 出 一 个 
卷 积 特征 图 (Feature Map) 。 用 一 组 卷 积 核 探 测 图 像 在 同一 层次 不 同 基 上 的 描述 。 例 
如 ， 一 个 卷 积 核 探测 水 平 边 界 特 征 ， 另 一 个 卷 积 核 探 测 垂直 边界 特征 。 十 字 架 是 图 像 
中 这 两 个 卷 积 核 都 活跃 的 区 域 。 

使 用 一 个 图 像 测试 不 同 的 卷 积 核 。 为 了 使 用 PIL 模块 读 取 图 像 文件 ， 需 要 安装 
Pillow 模块 ， 实 现代 码 如 下 : 


>pip3 install Pillow 


测试 二 维 卷 积 ， 实 现代 码 如 下 : 


from PIL import Image 
import numpy as np 
from scipy import signal as sg 
def np from img (fname): 
return np.asarray (Image.open (fname), dtype=np.float32) 
def save as img(ar, fname): 
Image.fromarray (ar.round() .astype (np.uint8)) .save (fname) 
def norm(ar) : 
return 255.*np.absolute (ar) /np.max (ar) 
img = np from img('img/portal.png') 
save as img (norm(sg.convolve (img, [[1.], 
GD 
'img/portal-h.png') 
save as img (norm(sg.convolve (img, [[1., -1.]])), 
'img/portal-v.png') 
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对 于 印刷 体 ， 可 以 用 感知 直线 的 卷 积 核 参数 。 展 平 卷 积 特征 图 ， 如 果 有 10 个 大 小 
为 5x5 的 特征 图 ， 那 么 将 得 到 一 个 具有 250 个 值 的 图 层 ， 然 后 与 MLP 没有 任何 区 别 ， 
将 所 有 这 些 人 工 神 经 元 通过 权重 连接 到 所 有 在 下 一 层 中 的 人 工 神经 元 。 

如 何 创建 卷 积 层 中 使 用 的 过 滤器 ? 可 以 使 用 反 向 传播 算法 训练 它 ， 就 像 训练 MLP 
一 样 。 在 训练 期 间 ， 可 以 根据 网 络 参数 优化 某 些 损失 函数 。 这 样 做 ， 事 实证 明 ， 边 缘 
或 弯曲 特征 会 导致 比 随机 特征 更 低 的 误差 。 

计算 特征 图 的 大 小 。 使 用 步 幅 为 1、 大 小 为 3x3 的 卷 积 核 。 

计算 特征 图 输出 尺寸 的 公式 为 


入 -天 
Ss 
在 前 面 的 例子 中 ，N=7, KK=3，S=1， 根 据 公 式 计算 出 输出 尺寸 为 5。 
SciPy (https://www.scipy.org) 是 一 款 免费 的 开源 Python 库 ， 用 于 科学 计算 和 技术 
计算 。 使 用 scipy.signal. convolve 方法 可 以 计算 一 维 卷 积 。 例 如 : 


import numpy as np 

import scipy.signal 

-npearraytllr Or 2 3 Or Le TI) # 输 入 
h=np.array ([2,1,3]) 砷 卷 积 核 
scipy.signal.convolve (x,h) 


输出 结果 : 

eT 

要 手动 计算 一 维 卷 积 ， 可 以 在 输入 上 滑动 内 核 ， 求 逐 元 素 乘法 并 对 它们 求 和 。 操 
作 前 ， 先 把 卷 积 核 中 的 数组 反 转 过 来 ， 然 后 对 应 元 素 相 乘 。 

使 用 scipy.signal.convolve2d 方法 可 以 计算 二 维 卷 积 。 例 如 : 


import scipy.signal 

4mage = [ll 2 37 5 bv Tl1s 
erg lo LEZ20 L3014]y 
LES TL6r Lr 0 9 20r Ll 
| pt Rt i A 
[ee ce 
Yc We | ec rT 


+1 
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[43，44，45，46 


7 47, 48, 49]] 


filter kernel = [[=1, 1, -1]; 
[SALE 
[2, -6, 0]] 
res = scipy.signal.convolve2d (image, filter kernel, 


print (res) 


输出 结果 : 


[[ -2 -8 -7 -6 - 
[ 3 -7 -10 -13 -1 


mode='same', boundary="'fill', fillvalue=0) 


5 ~4 28] 
5 L914] 


人 01] 
| 
(0 | 


有 


00 -103 -42] 


(10 9 | 


为 了 手工 计算 ， 可 以 先 反 转 卷 积 核 filter_ kernel 为 : 


[[0，-6，2]， 
[1，3，-2]， 
[=-1, 1, -1]] 


然后 对 应 元 素 相 乘 ， 例 如 左上 角 第 一 个 结果 的 计算 方法 为 


3x1+(-2) x2+1x8+(-1) x9 = -2 


个 体感 觉 神经 元 的 感受 时 
中 的 刺激 将 改变 该 神经 元 的 发 
或 动物 身体 的 其 他 部 分 。 


是 感觉 空间 (如 身体 表面 或 视野 ) 的 特定 区 域 ， 感 受 野 
射 。 该 区 域 可 以 是 耳蜗 中 的 纤毛 或 皮肤 、 视 网 膜 、 笑 头 


使 用 给 contrib.receptive_field 可 以 轻松 计算 卷 积 神经 网 络 的 感受 野 参数 , 还 可 以 了 


解 输 出 特征 所 依赖 的 输入 图 像 


区 域 的 大 小 。 更 好 的 是 ， 使 用 库 计 算 的 参数 ， 可 以 轻松 


找到 用 于 计算 每 个 卷 积 网 络 特征 的 精确 图 像 区 域 。 要 调用 的 主要 函数 是 compute_ 
receptive_field from graph_def(), 它 将 返回 感受 野 、 水 平和 垂直 方向 的 有 效 步 幅 及 有 效 
填充 。 使 用 函数 my_model construction(0) 构 造 模型 ， 则 可 以 按 如 下 方式 使 用 库 。 


import tensorflow as tf 
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斐 构造 图 
g = tf.Graph() 
with g.as default (): 
images = tf.placeholder (tf.float32, shape=(1, None, None, 3), name="input 
image') 
my_ model construction (images) 
# 计 算 感受 野 参数 
rf x, rf y, eff stride x, eff stride y, eff pad x, eff pad y= \ 
tf.contrib.receptive field.compute receptive field from graph def( \ 
g-:as graph def(), "input image', 'my output endpoint') 
If x=1f y= 3039, eff stride x =eff stride y=32, eff pad x=eff pad y= 1482, 
这 意味 着 在 节点 InceptionResnetV2/Conv2d 7b_1x1/Relu 输出 的 每 个 特征 都 是 从 一 个 
3039x3039 大 小 的 区 域 计算 的 。 此 外 ， 通 过 使 用 以 下 表达 式 : 


Center x = -eff pad x + feature x*eff stride x + (rf x - 1)/2 
center y = -eff pad y + feature y*eff stride y+ (rf y - 1)/2 


可 以 计算 输入 图 像 中 用 于 计算 位 于 [feature_x,feature_y] 处 的 输出 特征 区 域 的 中 心 。 例 
如 ， 位 于 层 InceptionResnetV2/Conv2d_7b_1xl/Relu 的 输出 在 [0,2] 处 的 特征 在 原始 图 像 
中 居中 的 位 置 为 [37,101]。 

可 以 直接 从 图 形 .pbtxt (protobuf) 文件 计算 感受 时 参数。 假设 有 graph.pbtxt 文件 并 
想 要 计算 其 感知 字段 参数 , 唯一 的 先决 条 件 是 安装 google/protobuf。 如 果 使 用 TensorFlow， 
则 可 能 已 安装 google/protobuf。 

运行 如 下 命令 : 

cd python/util/examples 

python compute rf.py \ 

--graph path /path/to/graph.pbtxt \ 
--output path /path/to/output/rf info.txt \ 
—-input node my input node \ 


-output node my _ output node 
如 果 不 知道 如 何 生 成 图 形 protobuf 文件 ， 可 以 查看 write_inception resnet v2 graph py 
脚本 ,该 脚本 显示 如 何 为 inception-resnet-v2 模型 保存 它 。 
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cd python/util/examples 


Python write inception resnet v2 graph.py --graph dir /tmp —-graph filename 


graph.pbtxt 


上 述 命 令 会 将 inception-resnet-v2 图 形 protobuf 文件 写 入 /tmp/graph.pbtxt。 
以 下 是 使 用 此 文件 获取 inception-resnet-v2 模型 感受 时 参数 的 命令 。 


cd python/util/examples 

python compute rf.py \ 
--graph path /tmp/graph.pbtxt \ 
--output path /tmp/rf info.txt \ 
--input node input image \ 


--output node InceptionResnetV2/Conv2d 7b 1x1/Relu 


上 述 命令 会 将 模型 的 感受 野 参数 写 入 /tmp/rf_info.txt， 如 下 所 示 。 


Receptive field size (horizontal) = 3039 
Receptive field size (vertical) = 3039 
Effective stride (horizontal) = 32 
Effective stride (vertical) = 32 


Effective padding (horizontal) = 1482 
Effective padding (vertical) = 1482 


7.3 ”搭建 深度 学 习 开 发 环境 


目前 ， 很 多 深度 学 习 框架 底层 采用 C++、C 或 Java 开发 。 本 节 先 讲解 使 


发 环境 Eclipse-CDT 开发 C++ 或 C 应 用 。 


7.3.1 使 用 Cygwin 模拟 环境 


| 


集成 开 


为 了 能 够 在 Windows 操作 系统 下 使 用 GUN 的 C++ 编译 器 ， 首 先 安装 Linux 模拟 
环境 Cygwin。 可 以 从 Cygwin 的 官方 网 站 http://www.cygwin.com/ 下 载 Cygwin 的 安装 


程序 。 


选择 Install from Internet， 直 接 从 Internet 安装 。 使 用 网 易 镜像 (http://mirrors.163. 
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comy/cygwin/) 。 选择 需要 下 载 安 装 的 组 件 包 , 如 gcc-core、gcc-g++、 make、 gdb 和 binutils。 
使 用 命令 行 安装 相关 组 件 : 

> Cygwin setup-x86 64.exe -q -P wget -P gcc-g++ -P make -P gcc-core -P gdb 
-P binutils 


在 命令 行 输入 如 下 命令 ， 验 证 C++ 编译 器 是 否 已 经 正确 安装 。 

> gt+ -V 

对 于 像 深 度 学 习 框 架 Darknet(https://github.com/pjreddie/darknet) 这 样 包含 Makefile 
的 C 语 言 源 代码 项 目 ， 可 以 直接 导入 Eclipse-CDT。 用 git 命令 下 载 Darknet: 

> git clone https://github.com/pjreddie/darknet 

然后 把 Darknet 源 代码 导入 Eclipse-CDT。 

在 Eclipse-CDT 中 可 以 直接 调用 Darknet 训练 好 的 模型 。 下 载 预 先 训练 好 的 权重 文件 : 

> wget https://pjreddie.com/media/files/yolov3.weights 

在 Eclipse-CDT 中 运行 检测 器 : 

>./darknet detect cfg/yolov3.cfg yolov3.weights data/dog.jpg 


这 里 ， 网 络 结构 通过 配置 文件 cfg/yolov3.cfg 指定 。 


7.3.2 使 用 CMake 


编译 工具 CMake (https://cmake.org/) 使 用 CMakeLists.txt 来 生成 makefile 文件 。 
CMake 通过 在 CMakeLists.txt 文件 中 编写 指令 来 控制 项 目 ， 项 目 中 的 每 个 目录 都 应 该 
有 一 个 CMakeLists.txt 文件 。CMake 的 好 处 在 于 , 子 目录 中 的 CMakeLists.txt 文件 继承 
父 目 录 中 设置 的 属性 ， 从 而 减少 代码 重复 量 。 

在 Linux 操作 系统 下 安装 或 升级 CMake， 只 需 从 https://cmake.org/download/ 下 载 并 
安装 CMake 的 较 新 版 本 。 


#cd /usr 
#sudo wget https://cmake.org/files/v3.8/cmake-3.8.2-Linux-x86 64.sh -P 
/usr/ 
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#sudo chmod 755 /usr/cmake-3.8.2-Linux-x86 64.sh 
#sudo ./cmake-3.8.2-Linux-x86 64.sh 


在 Windows 操作 系统 下 安装 CMake, 首先 下 载 CMake。 安装 CMake 后 , 把 cmake.exe 
所 在 的 路 径 增 加 到 PATH 环境 变量 。 

在 Eclipse-CDT 中 不 能 创建 CMake 项 目 ， 但 可 以 导入 CMake 项 目 。 可 以 这 样 做 一 一 
假设 名 为 “dlib” 的 CMake 项 目 源 代码 位 于 D:/javaworkspace/src/dlib 下 ， 创 建 一 个 文 
件 夹 D:/javaworkspace/build/dlib, 切换 到 该 文件 夹 下 , 并 使 用 Eclipse 生成 器 运行 CMake: 


>cmake ../../src/dlib -G"Eclipse CDT4 - Unix Makefiles" 


7.3.3 使 用 Keras 


在 安装 Keras 之 前 ， 需 要 先 安装 后 端 引擎 一 一 可 以 安装 TensorFlow 或 CNTK 作为 
后 端 引 擎 。 下 面 讲解 TensorFlow 后 端 引擎 的 安装 方法 。 

在 Windows 操作 系统 中 ，TensorFlow 仅 支 持 64 位 Python 3.5.x 以 上 版 本 。 当 下 载 
Python 3.5.x 版 本 时 ， 开 发 商 为 Python 随 附 了 pip3 软件 包 管理 器 ， 以 便 用 它 来 安装 
TensorFlow。 如 果 操 作 系统 中 没有 安装 低 版 本 的 Python 2, 则 可 以 使 用 pip 命令 安装 包 。 

通过 pip.ini 文件 可 以 指定 安装 参数 。 例 如 : 


[globall] 
index-url = http://mirrors.aliyun.com/pypi/simple 


trusted-host = mirrors.aliyun.com 
disable-pip-version-check = true 
timeout = 120 

[list] 

format = columns 


可 以 将 pip.ini 文件 放置 在 %APPDATA%\pip\ 目 录 下 。 
使 用 pip 安装 TensorFlow: 


>pip install tensorflow==1.5 -i https://pypi.douban.com/simple/ 
验证 安装 是 否 成 功 : 
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import tensorflow; 
print (tensorflow. version ); 


如 果 正 确 输出 版 本 号 1.5.0， 则 说 明 安 装 成 功 。 

然后 安装 Keras: 

>pip install keras 

使 用 手写 字符 数据 集 测 试 。 首 先 下 载 mnist.npz 文件 中 的 数据 集 。.npz 格式 文件 是 
一 种 压缩 文件 .其 中 包含 了 以 变量 命名 的 一 些 .npy 文件 , 这 里 为 x_train.npy、x_test.npy、 
y_train.npy、y_test.npy 这 4 个 文件 。x_trainnpy 和 x_test.npy 中 是 神经 网 络 的 输入 数据 ， 
y_train.npy、y_test.npy 中 是 神经 网 络 的 预期 输出 数据 。 

读 取 y_testnpy 中 的 数据 : 


import numpy as np; 
c= np.load( "d:/soft/mnist/y test.npy" ); 


print (c); 

输出 结果 : 

| 忆 人 > 

为 了 在 Java 中 读 / 写 .npy 和 .npz 文件 ， 可 以 使 用 npy (https://github.com/JetBrains- 
Research/npy) 包 。 

Keras 实现 卷 积 神经 网 络 分 类 的 代码 如 下 : 


from future import print function 
import keras 
from keras.datasets import mnist 


from keras.models import Sequential # 序 列 模型 是 一 个 线性 的 层次 堆 秋 
from keras.layers import Dense，Dropout  # 将 要 使 用 的 两 种 类 型 的 神经 网 络 层 
from keras.optimizers import RMSprop # 将 要 使 用 的 优化 器 


batch size = 128 # 指 定 进行 梯度 下 降 时 每 个 批 次 包含 的 样本 数 
num classes = 10 # 标 签 为 0~9 共 10 个 类 别 

epochs = 20 # 时 期 

import numpy as np 

path = 'd:/soft/mnist.npz"' 

f = np.load (path) 

traln ytraln = fe El ra 
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7.3.4 安装 TensorFlow 


在 Windows 操作 系统 下 安装 TensorFlow。 如 果 需 要 ， 则 升级 pip: 
>python -m pip install --upgrade pip 

安装 TensorFlow 的 指定 版 本 1.8.0: 

>pip install tensorflow==1.8.0 

如 果 下 载 软件 包 超时 ， 则 可 以 指定 超时 时 限 : 

>pip install tensorflow==1.8.0 --default-timeout=1000 
测试 版 本 : 


import tensorflow as tf 
print (tf. version ) 


在 Ubuntu 操作 系统 下 通过 编译 源 代码 的 方法 安装 TensorFlow。 

Bazel 是 编译 TensorFlow 的 工具 软件 。Bazel 将 整个 构建 分 解 为 独立 的 步骤 ， 称 为 
动作 。 每 个 动作 都 有 输入 /输出 名 称 、 命 令 行 和 环境 变量 。 每 个 动作 明确 声明 所 需 输入 
和 预期 输出 。 


#wget https://github.com/bazelbuild/bazel/releases/download/0.13.0/bazel- 
0.13.0-installer-linux-x86 64.sh 

#chmod +x bazel-0.13.0-installer-linux-x86 64.sh 

#./bazel-0.13.0-installer-linux-x86 64.sh -user 


安装 JDK 8， 执 行 如 下 命令 : 
#sudo apt-get install openjdk-8-jdk 
安装 Python 2.7， 执 行 如 下 命令 : 


#sudo apt-get install python-pip python-numpy swig python-dev 
#sudo pip install wheel 


安装 Python 3， 执行 如 下 命令 : 


#sudo apt-get install python3-pip python3-numpy swig python3-dev 
#sudo pip3 install wheel 


取得 源 代码 : 
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#git clone https://github.com/tensorflow/tensorflow.git 
在 本 地 源 代码 库 的 根 目录 下 更 新 源 代码 : 

#git fetch origin 

通过 bazel 配置 : 

#./configure 

构建 TensorFlow 包 : 


#bazel build --jobs 1 --config=monolithic tensorflow/tools/pip package: 
build pip package 


7.3.5 安装 TensorFlow 的 Docker 容器 


安装 Docker: 


$sudo apt install docker.io 


启动 Docker 服务 : 


$sudo Systemct1 start docker 


列 出 镜像 : 


$sudo docker images 


CentOS 下 安装 镜像 : 


#yum -Y install docker-io 


启动 服务 : 


#service docker start 


查看 服务 状态 : 


#service docker status 


查看 镜像 : 


https://hub.docker.com/r/tensorflow/tensorflow/tags/ 
得 到 镜像 : 


#docker pull tensorflow/tensorflow:1.8.0-py3 
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其 中 1.8.0-py3 为 标签 名 。 


列 出 镜像 : 

#docker image 1s 

运行 镜像 : 

#docker run -it docker.io/tensorflow/tensorflow:1.8.0-py3 /bin/bash 
查看 正在 运行 的 容器 : 

#docker ps 


CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES 
0c8e82bc5c22 docker.io/tensorflow/tensorflow:1.8.0-py3 
"/bin/bash" 2 hours ago Up 2 hours 6006/tcp, 8888/tcp priceless hawking 


查看 指定 容器 的 信息 : 
#docker inspect 0c8 
停止 指定 容器 : 
#docker stop 0c8 
停止 Docker 服务 : 


$sudo systemctl disable docker.service 


停止 所 有 的 Docker 容器 : 

$sudo docker ps -a -q | xargs -n 1 -P 8 -I {} docker stop {} 
为 了 完全 卸载 Docker， 需 要 确定 已 经 安装 的 包 : 

$dpkg -1 | grep -i docker 

卸载 已 经 安装 的 包 : 


$sudo apt-get purge -y docker-engine docker docker.io docker-ce 
$sudo apt-get autoremove -y --purge docker-engine docker docker.io docker-ce 


上 述 命令 不 会 删除 主机 上 的 镜像 、 容 器 、 卷 或 用 户 创建 的 配置 文件 。 如 果 要 删除 
所 有 镜像 、 容 器 和 卷 ， 运 行 以 下 命令 : 


$sudo rm -rf /var/lib/docker 
$sudo rm /etc/apparmor.d/docker 
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$sudo groupdel docker 
$sudo rm -rf /var/run/docker.sock 


7.3.6 ”使 用 TensorFlow 


基本 上 ， 所 有 TensorFlow 代码 都 包含 两 个 重要 部 分 。 

第 1 部 分 : 构建 计算 图 来 表示 计算 的 数据 流 。 

第 2 部 分 : 运行 会 话 来 执行 计算 图 中 的 操作 。 

首先 创建 计算 图 ， 即 想 要 对 数据 执行 的 操作 ， 然 后 使 用 会 话 单独 运行 它 。 

TensorFlow 程序 使 用 称 为 张 量 (Tensor) 的 数据 结构 来 表示 所 有 数据 。 计 划 用 于 
模型 的 任何 类 型 数据 都 可 以 存储 在 Tensor 中 。 简 而 言 之 ， 张 量 是 一 个 多 维 数组 ( 零 维 
张 量 : 标量 ; 一 维 张 量 : 向 量 ; 二 维 张 量 : 矩阵 等 ) 。 因此 ，TensorFlow 只 是 指 计算 
图 中 张 量 的 流动 。 

计算 图 是 一 系列 排列 成 节点 图 的 TensorFlow 操作 。 基 本 上 ， 这 意味 着 图 形 只 是 表 
示 模 型 中 操作 的 节点 布局 。 例 如 ， 函 数 太 (xy) =xyHy+2 在 TensorFlow 中 的 计算 图 如 
7-6 所 示 。 


图 7-6 函数 (xy) 的 计算 图 


下 面 让 我 们 从 一 个 基本 的 算术 操作 开始 , 演示 一 个 计算 图 ,该 代码 使 用 TensorFlow 
添加 两 个 值 , a=2 和 b=3。 为 此 , 我 们 需要 调用 共 add()。tf.add0 有 3 个 参数 a、b 和 name， 
其 中 a 和 4 为 要 加 在 一 起 的 值 ，name 为 操作 名 称 ， 即 与 计算 图 上 的 加 法 节点 相关 联 的 
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名 称 。 
import tensorflow as tf 
和 
b=3 
c= tf.add(a, b, name="'Add') 
Print(c) 
输出 : 


Tensor ("Add:0", shape=(), dtype=int32) 

在 上 述 这 段 代 码 中 ， 我 们 用 “Python 名 称 ”生成 了 3 个 变量 一 a、b 和 c。 这 里 ， 
a 和 5b 是 Python 变量 ， 因 此 没有 “TensorFlow 名 称 ”， 而 c 是 一 个 带 有 “TensorFlow 
名 称 ” 的 张 量 。 

要 计算 任何 内 容 ， 必 须 在 会 话 中 启动 图 形 。 从 技术 上 讲 ， 会 话 将 图 形 操作 放置 在 
诸如 CPU 或 GPU 等 的 硬件 上 ， 并 提供 执行 它们 的 方法 。 在 本 示例 中 ， 需 要 运行 该 图 
并 获取 张 量 c 的 值 。 以 下 代码 将 创建 一 个 会 话 并 通过 运行 张 量 来 执行 该 图 。 


sess = tf.Session() 


print (sess.run(c)) 
sess.close() 


上 述 代码 创建 一 个 Session 对 象 〈 分 配给 变量 sess) ， 然 后 调用 sess 的 run 方法 以 
运行 足够 的 计算 图 来 评估 c， 这 意味 着 ， 它 只 运行 图 的 这 个 部 分 来 获得 ec 的 值 。 在 这 个 
简单 的 例子 中 ， 它 运行 整个 图 。 在 会 话 结束 时 关闭 会 话 ， 这 是 使 用 上 述 代 码 中 的 最 后 
一 行 完成 的 。 

以 下 代码 执行 相同 的 操作 且 更 常用 。 唯一 的 区 别 是 , 不 需要 在 结束 时 自动 关闭 会 话 。 


with tf.Session() as sess: 
print (sess.run(c)) 


通过 张 量 的 名 称 来 运行 计算 图 ， 代 码 如 下 : 
import tensorflow as tf 

b=3 

c= tf.add(a, b, name='Add') 
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为 了 方便 调试 ， 可 以 调用 打印 操作 输出 张 量 的 值 ， 实 现代 码 如 下 : 


使 用 给 constant 可 以 简单 地 创建 一 个 常数 张 量 ， 它 可 接受 5 个 参数 。 例 如 : 


以 下 是 一 个 非常 简单 的 例子 一 一 创建 a、5 两 个 常量 并 将 它们 加 在 一 起 。 


常量 也 可 以 用 不 同类 型 〈 整 型 、 浮 点 型 等 ) 和 形状 〈 向 量 、 和 矩阵 等 ) 来 定义 。 假 
设 有 一 个 32 位 浮 点 类 型 的 常量 和 另 一 个 形状 为 2x2 的 常量 ， 实 现代 码 如 下 : 
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print (sess.run(s) ) 
print (sess.run (m) ) 


变量 是 输出 其 当前 值 的 有 状态 节点 。 这 意味 着 变量 可 以 在 一 个 计算 图 的 多 次 执行 
中 保留 其 值 。 变 量 包括 以 下 多 个 有 用 的 功能 。 
。 在 训练 期 间 和 之 后 ， 可 以 把 变量 保存 到 磁盘 。 这 样 可 以 让 不 同 公司 和 团体 的 人 
员 进 行 协 作 ， 因 为 他 们 可 以 保存 、 恢 复 并 将 模型 参数 发 送 给 其 他 人 。 
。 默认 情况 下 ， 梯 度 更 新 (用 于 所 有 神经 网 络 ) 将 应 用 于 图 形 中 的 所 有 变量 。 事 
实 上 ， 变 量 是 想 要 调整 的 事物 ， 以 便 将 损失 降 至 最 低 。 
以 上 这 两 个 特征 使 变量 适合 用 作 网 络 参数 〈 即 权重 和 偏差 ) 。 
变量 和 常量 之 间 有 以 下 两 个 主要 区 别 。 
。 常量 的 值 不 会 改变 。 但 我 们 通常 需要 更 新 网 络 参数 , 这 就 是 变量 发 挥 作用 的 地 方 。 
。 常量 存储 在 图 形 定义 中 ， 这 使 得 内 存 非 常 紧张 。 换 句 话 说 ， 有 具有 数 百 万 条 目的 
常量 会 使 图 形 显示 速度 变 得 更 慢 且 资源 密集 。 
创建 变量 是 一 种 操作 ， 可 以 在 会 话 中 执行 这 些 操 作 并 获取 操作 的 输出 值 。 要 创建 
一 个 变量 ， 应 该 使 用 芋 Variable0。 例 如 : 
# 创 建 一 个 变量 


Ww = tf.Variable (<initial-value>, name=<optional-name>) 

就 如 同 在 大 多 数 编程 语言 中 一 样 ， 变 量 在 使 用 之 前 需要 初始 化 。TensorFlow 虽然 
不 是 一 种 语言 ， 但 也 不 例外 。 要 初始 化 变量 ， 我 们 必须 调用 一 个 变量 初始 值 设 定 项 操 
作 并 在 会 话 中 运行 该 操作 。 这 是 一 次 性 初始 化 所 有 变量 的 最 简单 方法 。 

创建 w、2 两 个 变量 并 将 它们 加 在 一 起 ， 实 现代 码 如 下 : 

# 创 建 计算 图 


a = tf.get variable (name="A", initializer=tf.constant (2)) 


b = tf.get variable (name="B", initializer=tf.constant (3)) 
c= tf.add(a, b, name="Add") 

# 添 加 一 个 操作 来 初始 化 全 局 变量 

init op = tf.global variables initializer() 

大 在 会 话 中 运行 计算 图 


with tf.Session() as sess: 
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# 运 行 变 量 初始 化 器 操作 
sess.run(init op) 
埋 评 估 变 量 的 值 

print (sess.run(a) ) 
print (sess.run(b)) 
print (sess.run(c) ) 


每 次 调用 给 Variable() 都 会 得 到 一 个 新 的 变量 ， 不 会 检查 名 称 冲突 。 但 使 用 tfget_ 
variable0 时 ， 则 会 检查 名 称 冲突 。 使 用 蔚 Variable0 的 代码 如 下 : 


import tensorflow as tf 
WwW1=tf.Variable(3,name="w 1") 
w 2 = tf.Variable(l,name="w 1") 


print (w 1.name) 
print (w 2.name) 


输出 结果 : 


w1:0 
wl11:0 


使 用 给 get_variable() 的 代码 如 下 : 


import tensorflow as tf 


Ww 1 = tf.get variable (name="w 1",initializer=1) 
Ww 2 = tf.get variable (name="w 1",initializer=2) 


输出 结果 会 报错 : 


ValueError: Variable w 1 already exists, disallowed. Did you mean to set 
reuse=True or reuse=tf.AUTO REUSE in VarScope? 


变量 通常 用 于 神经 网 络 中 的 权重 和 偏差 。 

e 权重 通常 使 用 tftruncated_normal initializer() 从 正 态 分 布 初始 化 。 

e 偏差 通常 使 用 共 zeros_initializer() 从 零 初始 化 。 

下 面 让 我 们 看 一 个 非常 简单 的 例子 一 一 通过 适当 地 初始 化 来 创建 权重 和 偏差 变量 。 

为 具有 两 个 神经 元 的 完全 连接 层 创建 权重 和 偏差 矩阵 ， 并 将 其 与 3 个 神经 元 的 另 
一 个 图 层 一 起 创建 。 在 这 种 情况 下 ， 权 重 和 偏差 变量 的 大 小 必须 分 别 为 [2.3] 和 3。 

二 创建 计算 图 
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weights = tf.get variable (name="W", shape=[2,3], initializer=tf.truncated 


normal initializer (stddev=0.01)) 


biases=tf.get variable (name="b", shape=[3], initializer=tf.zeros initializer()) 
埋 添 加 一 个 操作 来 初始 化 全 局 变量 
init op = tf.global variables initializer() 
# 在 会 话 中 运行 计算 图 
with tf.Session() as sess: 
# 运 行 变 量 初始 化 器 操作 
sess.run(init op) 
井 运 行 我 们 的 操作 
W, b = sess.run([weights，biases]) 
Print('weights = {} 7" .format (W) ) 
Print('biases = {}'.format (b)) 


输出 结果 : 


weights = [[-0.01064058 -0.0022427 -0.00125237] 
[ 0.00294374 -0.00230121 -0.01269217]] 
biases = [0. 0. 0.] 


占 位 符 比 变 量 更 基础 ， 它 只 是 在 未 来 对 数据 进行 分 配 的 一 个 变量 。 占 位 符 是 其 值 


在 执行 时 被 传 入 的 节点 。 如 果 网 络 有 依赖 于 某 些 外 部 数据 的 输入 ， 并 且 不 希望 图 形 在 


必 


F 发 时 依赖 于 任何 实际 值 ， 则 占 位 符 就 是 我 们 需要 的 数据 类 型 。 事 实 上 ， 我 们 可 以 在 


没有 任何 数据 的 情况 下 构建 图 。 因 此 ， 占 位 符 不 需要 任何 初始 值 。 一 个 占 位 符 只 有 一 
个 数据 类 型 〈 例 如 foat32) 和 一 个 张 量 形状 ， 所 以 即使 没有 任何 存储 的 值 ， 图 形 仍然 
知道 要 计算 什么 。 


创建 占 位 符 的 示例 如 下 。 


= tf.placeholder (tf.float32, shape=[5]) 

= tf.placeholder (dtype=tf.float32, shape=None, name=None) 

= tf.placeholder (tf.float32, shape=[None, 784], name='input') 
tf.placeholder (tf.float32, shape=[None, 10], name="'label') 


用 占 位 符 执行 加 法 和 乘法 操作 的 示例 如 下 。 
a = tf.placeholder (tf.int16) 


b tf.placeholder (tf.int16) 
非 定义 一 些 操 作 


证 mp 
ll 
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输出 结果 : 


numpy 使 用 的 示例 如 下 。 


结合 


输出 结果 : 


-970s 


TensorFlow 解决 XOR 问题 的 神经 网 络 ， 实 现代 码 如 下 : 
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只 要 元 素 的 数量 保持 不 变 , 就 可 以 使 用 萎 reshape0 来 改变 TensorFlow 张 量 的 形状 。 
这 里 将 举 3 个 例子 来 说 明 tfreshape0 是 如 何 工 作 的 。 

下 面 让 我 们 从 最 初 的 TensorFlow 常数 张 量 形状 2x3x4 开始 ， 数 值 范围 为 1 一 24， 
所 有 数据 类 型 都 为 int32。 
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tf initial tensor Constant = tf.constant( 


[ 


geo el 


SOURCE 
Te 200 
i 200 23 2 


] 
, dtype="int32" 
) 


在 上 述 代码 中 , 我 们 使 用 给 constant0 创 建 了 一 个 2x3x4 的 张 量 , 数据 类 型 为 int32， 
看 到 的 数字 是 1,2,3,4,…,24， 将 其 分 配给 张 量 tf initial tensor_constant。 现 在 让 我 们 打 
印 出 tf_initial_tensor_constant 的 Python 变量 来 查看 所 拥有 的 内 容 。 


print (tf initial tensor constant) 

输出 结果 : 

Tensor ("Const:0", shape=(2, 3, 4), dtype=int32) 

可 以 看 到 ， 它 是 TensorFlow 常量 ， 形 状 为 2x3x4， 数 据 类 型 为 mnt32。 因 为 还 没有 
在 TensorFlow 会 话 中 运行 它 ， 所 以 即使 将 它 定义 为 常量 ， 似 乎 也 没有 值 。 这 同样 适 
于 我 们 即将 创建 的 其 他 形状 张 量 。 

对 于 第 一 个 例子 ， 将 形状 为 2x3x4 的 张 量 更 改 为 形状 为 2x12 的 张 量 。 


tf ex one reshaped tensor 2 by 12 = tf.reshape(tf initial tensor constant, 
[2, 12]) 


这 里 使 用 函数 tfreshape0， 并 传 入 tf initial tensor_constant 和 想 要 的 新 形状 细节 ， 
然后 将 其 分 配给 张 量 tf ex_one reshaped tensor 2 by 12。 注意 ， 元 素 的 数量 将 保持 不 
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变 ， 因 为 2x3x4 的 取 值 是 24，2x12 的 取 值 也 是 24。 

打印 出 张 量 tf ex_one reshaped tensor 2 by 12 来 看 看 有 什么 变化 。 

print (tf ex one reshaped tensor 2 by 12) 

输出 结果 : 

Tensor ("Reshape:0", shape=(2, 12), dtype=int32) 

可 以 看 到 ， 它 是 TensorFlow 张 量 ， 形 状 为 2x12， 数 据 类 型 为 int32。 输 出 还 没有 
显示 任何 值 ， 因 为 我 们 仍 在 构建 TensorFlow 图 ， 还 没有 在 TensorFlow 会 话 中 运行 它 。 

对 于 第 二 个 例子 ， 将 形状 为 2x3x4 的 张 量 更 改 为 形状 为 2x3x2x2 的 张 量 。 


tf ex two reshaped tensor 2 by 3 by 2 by 2 = tf.reshape(tf initial tensor 
constanta [27322552 


这 里 使 用 函数 给 reshape0， 传 入 初始 张 量 ， 并 传 入 2,3,2,2 指定 形状 ， 然 后 将 它 分 
配给 张 量 tf ex_two_reshaped tensor 2 by 3 by 2_ by 2。 注 意 ， 元 素 的 数量 将 保持 不 
变 ， 因 为 2x3x4 的 取 值 是 24，2x3x2x2 的 取 值 也 是 24。 

打印 出 张 量 tf_ex_two_reshaped tensor 2 by 3 by 2 by 2 来 看 看 什么 变化 。 

print (tf ex two reshaped tensor 2 by 3 by 2 by 2) 

输出 结果 : 

Tensor ("Reshape 1:0", shape=(2, 3, 2, 2), dtype=int32) 

可 以 看 到 ， 它 是 TensorFlow 张 量 ， 形 状 为 2x3x2x2( 这 是 我 们 所 期 望 的 ) ， 数 据 
类 型 为 int32。 

对 于 第 三 个 例子 ， 将 形状 为 2x3x4 的 TensorFlow 张 量 更 改 为 24 个 元 素 的 向 量 。 


tf ex tre reshaped tensor 1 by 24 = tf.reshape (tf initial tensor constant, 
| 


这 里 使 用 函数 给 reshape0 操 作 ， 传 入 初始 张 量 ， 并 传 入 “ [-1] ”。 它 的 作用 是 
将 张 量变 平 ， 所 以 得 到 的 只 是 一 个 包含 24 个 元 素 的 列表 。 然 后 将 它 分 配给 张 量 tf ex_ 
tre_reshaped tensor 1 by 24。 

打印 出 张 量 tf ex_tre_reshaped tensor 1 by 24 来 看 看 有 什么 变化 。 
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输出 结果 : 


可 以 看 到 ， 它 是 TensorFlow 张 量 ， 形 状 为 “(24,)”， 这 意味 着 它 将 是 一 个 向 量 ， 
数据 类 型 为 nt32。 

创建 TensorFlow 张 量 后 ， 下 面 开始 运行 计算 图 。 

在 会 话 中 启动 计算 图 : 


初始 化 图 中 的 所 有 全 局 变量 : 


接 下 来 ， 打 印 出 4 个 张 量 ， 以 便 了 解 ttreshapeO) 的 工作 原理 。 
(1) 打印 出 初始 张 量 常数 。 


输出 结果 : 


可 以 看 到 ， 它 是 一 个 2x3x4 的 张 量 ， 数 字 从 1 到 24， 并 且 没 有 一 个 小 数 点 ， 所 以 
它们 为 int32 类 型 数据 。 
(2) 打印 出 第 一 个 重 塑 张 量 。 


输出 结果 : 


= 
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可 以 看 到 ， 它 是 一 个 张 量 ， 里 面 有 两 个 矩阵 ， 第 一 个 矩阵 有 1 行 12 列 ， 第 二 个 矩 
阵 也 有 1 行 12 列 ，1 一 24 所 有 的 元 素 都 在 其 中 。 

(3) 打印 出 第 二 个 重 塑 张 量 。 

print (sess.run(tf ex two reshaped tensor 2 by 3 by 2 by 2)) 

输出 结果 : 


[[I[ 1 2] 
GS A 


[[ 5 6] 
od 


[[ 9 10] 
[11 12]]] 

[[[13 14] 
[15 2611 


[[17 18] 
WIS 20)] 


[[21 22] 
[23 24]]]] 


可 以 看 到 , 它 是 一 个 具有 两 个 内 部 张 量 的 张 量 , 每 个 内 部 张 量 有 3 个 2x2 的 矩阵 。 
所 以 为 两 行 两 列 ， 两 行 两 列 ， 两 行 两 列 ， 然 后 又 是 两 行 两 列 ， 两 行 两 列 ， 两 行 两 列 。 

总 的 来 说 ， 我 们 可 以 看 到 形状 为 2x3x2x2， 所 有 的 数字 都 在 其 中 。 

(4) 打印 出 第 三 个 重 塑 张 量 。 

print (sess.run (tf ex tre reshaped tensor 1 by 24) ) 

输出 结果 : 

有 | 

可 以 看 到 ， 它 是 一 个 有 24 个 元 素 长 的 向 量 。 只 要 元 素 的 数量 保持 不 变 ， 就 可 以 使 
用 给 reshape0) 来 改变 TensorFlow 张 量 的 形状 。 

现在 ， 我 们 拥有 了 所 有 必需 的 材料 ， 可 以 开始 构建 带 有 一 个 隐藏 层 和 200 个 隐藏 
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单元 〈 神 经 元 ) 的 前 馈 神经 网 络 。h=ReLU (Wx+b) TensorFlow 中 的 计算 图 如 图 7-7 
所 示 。 


本 
Gf 
上 站 


图 7-7 h=ReLU (Wx+b) 的 计算 图 


在 现实 世界 的 问题 中 , 我 们 有 成 千 上 万 的 输入 ， 这 使 得 梯度 下 降 的 计算 成 本 很 高 。 
这 就 是 我 们 要 将 输入 集 分 成 几 个 尺寸 为 B〈 称 为 小 批量 尺寸 ) 的 较 短 片段 〈 称 为 小 批 
量 ), 并 逐个 输入 它们 的 原因 。 我 们 把 这 种 策略 称 为 “随机 梯度 下 降 ”(Stochastic Gradient 
Descent) 。 将 大 小 为 B 的 每 个 小 批量 馈送 到 网 络 ， 反 向 传播 误差 及 更 新 参数 (权重 和 
偏差 ) 的 过 程 称 为 “迭代 ”。 

我 们 通常 使 用 占 位 符 来 输入 ， 以 便 在 上 下 文中 没有 任何 实际 值 的 情况 下 构建 图 。 
唯一 的 一 点 是 ， 需 要 为 输入 选择 适当 的 尺寸 。 在 这 里 ， 我 们 有 一 个 前 馈 神 经 网 络 ， 假 
设 每 个 图 像 大 小 可 为 784 (类似 于 MNIST 数据 的 28x28 图 像 ), 输入 占 位 符 可 以 写 为 : 


帮 创建 输入 占 位 符 
X = tf.placeholder (tf.float32, shape=[None, 784], name="X") 


你 可 能 想 知道 为 什么 是 shape=[None, 784]?， 这 是 因为 如 果 我 们 需要 在 每 次 训练 迭 
代 中 将 B 个 大 小 为 784 的 图 像 作为 一 个 批 次 提供 给 网 络 ,所 以 占 位 符 为 shape = [B,784]。 
而 将 占 位 符 的 形状 定义 为 [None,784]， 意 味 着 我 们 可 以 提供 任何 数量 的 大 小 为 784 的 
图 像 (不 一 定 是 B 个 图 像 》。 这 在 评估 时 特别 有 用 ， 我 们 需要 将 所 有 验证 或 测试 图 像 
提供 给 网 络 ， 并 计算 出 所 有 验证 或 测试 图 像 的 性 能 指标 。 

接 下 来 ， 我 们 来 看 看 网 络 参数 政和 5。 正 如 上 面 的 变量 部 分 所 解释 的 那样 ， 它 们 
必须 被 定义 为 变量 。 由 于 在 TensorFlow 中 默认 情况 下 ， 渐 变更 新 将 应 用 于 图 形变 量 ， 
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因此 变量 需要 初始 化 。 

一 般 来 说 ， 权 重 〈(W) 是 随机 初始 化 的 ， 它 是 正 态 分 布 中 最 简单 的 形式 ， 例 如 零 
义 值 和 标准 差 为 0.01 的 正 态 分 布 。 偏 差 (b) 可 以 初始 化 为 小 的 常数 值 ， 例 如 0。 

由 于 输入 维 数 为 784， 并 且 有 200 个 隐藏 单元 ， 因 此 权重 矩阵 的 大 小 为 [784,.200]。 
我 们 还 需要 200 个 偏差 ， 每 个 隐藏 单元 一 个 。 实 现代 码 如 下 : 
# 创 建 从 N(0，0.01) 随机 初始 化 的 权重 矩阵 


weight initer = tf.truncated normal initializer (mean=0.0, stddev=0.01) 
W = tf.get variable (name="Weight", dtype=tf.float32, shape=[784,200], 
initializer=weight initer) 


# 创 建 大 小 为 200 的 偏差 向 量 , 全 部 初始 化 为 0 
bias initer =tf.constant (0., shape=[200], dtype=tf.float32) 
b = tf.get variable (name="Bias", dtype=tf.float32, initializer=bias initer) 


我 们 必须 将 输入 Xixone7s4 和 权重 矩阵 Wi7s4200] 相 乘 , 这 个 操作 给 出 大 小 为 [None,200] 
的 张 量 , 然后 加 上 偏差 向 量 blz00o, 并 从 一 个 ReLU 非 线性 产生 最 终 张 量 。 实现 代码 如 下 : 


# 创 建 MatMul 节点 
x Ww = tf.matmul (X, W, name="MatMul") 
埋 创 建 dd 节点 

XWwWb=tt.add(x w, b, name="Add") 

# 创 建 ReLU 节点 


h = tf.nn.relu(x Ww b, name="ReLU") 
在 关闭 之 前 ， 在 该 计算 图 上 运行 会 话 〈 使 用 由 随机 像素 值 生成 的 100 张 图 像 ) 并 
获取 隐藏 单元 的 输出 hn， 以 下 是 完整 的 代码 。 


import tensorflow as tf 

import numpy as np 

# 创 建 输入 占 位 符 

X = tf.placeholder (tf.float32, shape=[None, 784], name="X") 

weight initer = tf.truncated normal initializer (mean=0.0, stddev=0.01) 

斐 创建 网 络 参数 

W = tf.get variable (name="Weight"， dtype=tf.float32, shape=[784, 200], 
initializer=weight initer) 

bias initer =tf.constant (0., shape=[200], dtype=tf.float32) 
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b = tf.get variable (name="Bias", dtype=tf.float32, initializer=bias initer) 
# 创 建 MatMul 节点 
x w= tf.matmul (xX, W, name="MatMul") 
# 创 建 Add 节点 
xW b= tf.add(x w, b, name="Add") 
井 创 建 ReLU 节点 
h = tf.nn.relu(x wb，name="ReLU") 
# 添 加 一 个 操作 来 初始 化 全 局 变量 
init op = tf.global variables initializer() 
# 在 会 话 中 运行 计算 图 
with tf.Session() as sess: 
# 初 始 化 变量 
sess.run(init op) 
# 创 建 词典 
d= {X: np.random.rand(100, 784)} 


# 通 过 词典 将 值 提供 给 占 位 符 


print (sess.run(h, feed dict=d)) 
TensorFlow 计算 图 虽然 功能 强大 ， 但 可 能 会 变 得 非常 复杂 。 使 用 TensorBoard 可 
视 化 图 形 可 以 帮助 我 们 理解 和 调试 计算 图 。 为 了 让 TensorFlow 程序 激活 TensorBoard， 
我 们 需要 添加 一 些 代码 行 。 这 会 将 TensorFlow 操作 导出 到 称 为 事件 文件 〈 或 事件 日 志 
文件 ) 的 文件 中 。TensorBoard 能 够 读 取 此 文件 ， 并 提供 模型 图 形 及 其 性 能 的 一 些 可 视 
化 显示 。 下 面 编写 一 个 简单 的 TensorFlow 程序 ， 并 用 TensorBoard 可 视 化 其 计算 图 。 
创建 a、b 两 个 常量 并 将 它们 加 在 一 起 ， 常 量 张 量 可 以 简单 地 由 它们 的 值 来 定义 。 
import tensorflow as tf 


埋 创 建 计算 图 

a = tf.constant (2) 
b = tf.constant (3) 
c= tEaddtay bb) 

# 在 会 话 中 运行 计算 图 


with tf.Session() as sess: 


print (sess.run(c)) 


为 了 用 TensorBoard 把 程序 可 视 化 , 我 们 需要 编写 程序 的 日 志文 件 。 要 编写 事件 日 


“Ls 


深度 学 习 : 语音 识别 技术 实践 


志文 件 ， 先 使 用 以 下 代码 为 这 些 日 志 创建 一 个 写 入 器 。 


writer = tf.summary.FileWriter([logdir], [graph]) 


其 中 参数 [logdir] 为 存储 这 些 日 志文 件 的 文件 夹 , 也 可 以 选择 [logdir] 为 '/graphs' 等 有 意义 
的 名 称 ， 参 数 [graph] 为 正在 开发 程序 的 图 形 ， 有 以 下 两 种 方法 可 以 获得 图 形 。 


选 


用 


。 使 用 给 get_default_graphO 调 用 图 形 ， 该 函数 返回 程序 的 默认 图 形 。 

。 将 其 设置 为 返回 会 话 图 形 的 sess.graph 注意， 这 需要 我 们 创建 一 个 会 话 ) 。 
在 以 下 的 示例 中 ， 可 以 看 到 这 两 种 方法 的 应 用 。 然 而 ， 第 二 种 方法 更 常见 。 无 论 
哪 种 方法 , 均 要 确保 在 定义 图 形 后 才 创 建 一 个 写 入 器 ; 否则 , 在 TensorBoard 上 可 


视 化 的 图 形 将 不 完整 。 将 写 入 器 添加 到 第 一 个 示例 中 ， 并 将 图 形 可 视 化 。 


import tensorflow as tf 


tf.reset default graph ()  # 清 除 先前 单元 格 的 已 定义 变量 和 操作 


# 创 建 图 形 

a = tf.constant (2) 
b = tf.constant (3) 
c= tf.add(a, b) 


# 在 会 话 外 创建 写 入 器 
#writer = tf.summary.FileWriter('./graphs', tf.get default graph()) 


# 在 会 话 中 启动 图 形 


with tf.Session() as sess: 


# 或 在 会 话 中 创建 写 入 器 
writer = tf.summary.FileWriter('./graphs', sess.graph) 
print (sess.run(c)) 


执行 此 代码 ，TensorFlow 将 在 当前 目录 中 创建 一 个 包含 事件 文件 的 目录 。 
在 运行 Python 代码 的 目录 下 启动 TensorBoard 服务 : 
$tensorboard --logdir="./graphs" --port 6006 


在 浏览 器 中 使 用 http://<IP_Address>:6006/ 访 问 ,该 链接 将 引导 我 们 进入 TensorBoard 


页 面 ， 可 视 化 示例 代码 生成 的 图 形 如 图 7-8 所 示 。 
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TensorBoard 


Cr Add 


Const 
Const_1 


图 7-8 TensorBoard 页 面 中 可 视 化 示例 代码 生成 的 图 形 


图 7-9 中 的 图 表 显示 了 模型 的 各 个 部 分 。 其 中 的 节点 “Const” 和 节点 “Const_1” 
对 应 于 代码 中 的 a 和 4b， 节点 “Add” 对 应 于 c。 代 码 中 给 出 的 名 称 (a,，b 和 c) 只 是 
Python 名 称 ， 它 们 只 在 编写 代码 时 帮助 我 们 访问 ， 名 称 对 TensorFlow 和 TensorBoard 
没有 任何 意义 。 为 了 使 TensorBoard 了 解 我 们 的 操作 名 称 ， 必 须 明 确 地 命名 它们 。 
再 次 修改 代码 来 添加 名 称 。 
import tensorflow as tf 
tf.reset default graph()  # 清 除 先前 单元 格 的 已 定义 变量 和 操作 
# 创 建 图 形 
a = tf.constant (2, name="a") 
b = tf.constant (3, name="b") 
c= tf.add(a, b, name="addition") 
# 在 会 话 外 创建 写 入 器 
#writer = tf.summary.FileWriter('./graphs', tf.get default graph()) 
# 在 会 话 中 启动 图 形 
with tf.Session() as sess: 
塌 或 在 会 话 中 创建 写 入 器 
writer = tf.summary.FileWriter('./graphs', sess.graph) 
print (sess.run(c)) 
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TensorBoard 页 面 中 修改 名 称 后 生成 的 图 形 如 图 7-9 所 示 。 


TensorBoard GRAPHS 


回 Fitto screen 


量 DownloadPNG 


a addition 
rnsm a 


Upload chooseFile 
BD Traceinputs b 
Color 轩 structure 

© vevce 

© wa cluster 


© computetime 


O Memoy 


© TPU compatibilty 


图 7-9 TensorBoard 页 面 中 修改 名 称 后 生成 的 图 形 


到 目前 为 止 ， 我们 只 关注 了 如 何在 TensorBoard 中 可 视 化 图 形 。TensorBoard 还 提 
供 了 其 他 类 型 (标量 、 图 像 和 直方 图 ) 的 可 视 化 。 在 这 一 部 分 ， 我 们 将 使 用 一 种 称 为 
摘要 (Summary) 的 特殊 操作 来 将 模型 参数 (如 神经 网 络 的 权重 和 偏差 )、 度 量 ( 如 损 
失 或 准确 度 值 ) 和 图 像 ( 如 到 网 络 的 输入 图 像 可 视 化 。 
摘要 是 一 个 特殊 的 操作 ， 它 可 接受 常规 张 量 并 将 汇总 数据 输出 到 磁盘 〈 即 事件 文 
件 ) 中 。 基 本 上 ， 有 以 下 3 种 主要 类 型 的 摘要 。 
e tfsummary.scalar(): 用 于 写 入 单个 标量 值 张 量 〈 如 分 类 损失 或 准确 度 值 ) 。 
。 人 summary.histogram(): 用 于 绘制 非 标量 张 量 所 有 值 的 直方 图 (可 用 于 可 视 化 神 
经 网 络 的 权重 或 偏差 矩阵 ) 。 
e ttsummary.image0: 用 于 绘制 图 像 〈 如 网 络 的 输入 图 像 、 自 动 编码 器 或 GAN 
生成 的 输出 图 像 ) 。 
接 下 来 ， 我 们 将 更 详细 地 讲解 上 述 所 有 摘要 类 型 。 
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引 summary.scalar0 用 于 编写 随时 间或 迭代 而 变化 的 标量 张 量 的 值 。 在 神经 网 络 中， 
通常 用 于 监视 损失 函数 或 分 类 精度 的 变化 。 下 面 让 我 们 举 一 个 简单 的 例子 来 理解 这 一 点 。 
从 标准 正 态 分 布 M0,1) 中 随机 挑选 100 个 值 ， 并 依次 绘制 它们 。 一 种 方法 是 简单 
地 创建 一 个 变量 ， 并 从 正 态 分 布 〈 平 均值 = 0 和 标准 差 = 1) 初始 化 变量 ， 然 后 在 会 话 
中 运行 for 循环 并 初始 化 。 代 码 如 下 ， 编 写 摘要 所 需 的 步骤 在 代码 中 进行 了 说 明 。 
import tensorflow as tf 


tf.reset default graph()  # 清 除 先前 单元 格 的 已 定义 变量 和 操作 
斐 创建 标量 变量 


x scalar = tf.get variable('x scalar', shape=[], initializer=tf.truncated 
normal initializer (mean=0, stddev=1)) 

# 步骤 1: 创建 标量 摘要 

first summary=tf.summary.scalar (name='My first scalar summary', tensor=x 
scalar) 


init = tf.global variables initializer() 


# 在 会 话 中 启动 图 形 


with tf.Session() as sess: 


# 步骤 2: 在 会 话 中 创建 写 入 器 


writer = tf.summary.FileWriter('./graphs', sess.graph) 


for step in range(100): 
# 循 环 变量 的 初始 化 


sess.run(init) 
# 步骤 3: 评估 标量 摘要 
summary = sess.run(first summary) 


# 步骤 4: 将 摘要 添加 到 写 入 器 ( 即 事件 文件 ) 


writer.add summary (summary, step) 


print ('Done with writing the scalar summary') 

如 果 我 们 希望 观察 值 随时 间或 迭代 的 变化 而 变化 ， 则 直方 图 会 派 上 用 场 。 它 用 于 
绘制 非 标 量 张 量 值 的 直方 图 。 在 神经 网 络 的 情况 下 ， 它 通常 用 于 监测 权重 和 偏差 分 布 
的 变化 ， 对 检测 网 络 参数 的 不 规则 非常 有 用 《〈 例 如 ， 当 权重 发 生 爆 炸 或 异常 收缩 时 ) 。 

继续 前 面 的 示例 ， 添 加 一 个 大 小 为 30x40 的 矩阵 ， 其 条 目 来 自 标准 正 态 分 布 。 初 
始 化 该 矩阵 100 次 ， 并 绘制 其 输入 项 随时 间 的 分 布 。 


import tensorflow as tf 
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tf.reset default graph () 提 清 除 先前 单元 格 的 已 定义 变量 和 操作 

# 创 建 变 量 

x scalar=tf.get variable('x scalar', shape=[], initializer=tf.truncated 
normal initializer (mean=0, stddev=1)) 

x matrix=tf.get variable('x matrix',shape=[30,40], initializer=tf.truncated 
normal initializer (mean=0, stddev=1)) 

# 步骤 1: _ 创建 摘要 

# 标 量 张 量 的 标量 摘要 

scalar summary = tf.summary.scalar('My scalar summary', x scalar) 

# 非 标量 ( 即 2D 或 矩阵 ) 张 量 的 直方 图 摘要 


histogram summary = tf.summary.histogram('My histogram summary', x matrix) 
init = tf.global variables initializer() 


# 在 会 话 中 启动 图 形 
with tf.Session() as sess: 
# 步骤 2: 在 会 话 中 创建 写 入 器 
writer = tf.summary.FileWriter('./graphs', sess.graph) 
for step in range(100): 
# 循 环 变量 的 几 个 初始 化 操作 
sess.run(init) 
# 步骤 3: 评估 合并 的 摘要 
summaryl, summary2 = sess.run([scalar summary, histogram summary]) 
# 步骤 4: 将 摘要 添加 到 写 入 器 ( 即 事件 文件 ) 以 写 入 硬盘 
writer.add summary (summaryl, step) 
# 重 复 直方 图 摘要 的 步骤 4 
writer.add summary (summary2, step) 
print ('Done writing the summaries') 
在 TensorBoard 中 ， 顶 部 菜单 中 添加 了 “分 布 ” 和 “直方 图 ”两 个 选项 卡 。 “分 
布 ”选项 卡 包含 一 个 图 表 ， 显 示 通 过 步骤 (x 轴 ) 、 张 量 值 (y 轴 ) 的 分 布 。 
我 们 需要 运行 每 个 摘要 (例如 sess.run([scalar_summary,histogram summary])) ， 
然后 使 用 写 入 器 将 它们 中 的 每 一 个 写 入 磁盘 。 实 际 上 ， 我 们 可 以 使 用 任意 数量 的 摘要 
来 跟踪 模型 中 的 不 同 参 数 ,这 使 得 运行 和 写 入 摘要 极其 低 效 .解决 方法 是 通过 tfsummary. 
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merge_all0 合 并 图 表 中 的 所 有 摘要 ， 并 在 会 话 中 立即 运行 它们 。 代 码 更 改 如 下 : 
import tensorflow as tf 
tf.reset _ default graph()  ## 清 除 先前 单元 格 的 已 定义 变量 和 操作 
埋 创 建 变量 


x scalar=tf.get variable('x scalar',shape=[],initializer=tf.truncated 
normal initializer (mean=0, stddev=1)) 

x matrix=tf.get variable('x matrix',shape=[30,40],initializer=tf.truncat 
ed normal initializer (mean=0, stddev=1)) 

# 步骤 1: _ _ 创建 摘要 

# 标 量 张 量 的 标量 摘要 


scalar summary = tf.summary.scalar('My scalar summary', x scalar) 
# 非 标量 ( 即 2D 或 矩阵 ) 张 量 的 直方 图 摘要 
histogram summary = tf.summary.histogram('My histogram summary', x matrix) 
# 步骤 2: 合并 所 有 摘要 
merged = tf.summary.merge all() 
init = tf.global variables initializer() 
# 在 会 话 中 启动 图 形 
with tf.Session() as sess: 
# 步骤 3: 在 会 话 中 创建 写 入 器 
writer = tf.summary.FileWriter('./graphs', sess.graph) 
for step in range (100) : 
# 循 环 变量 的 几 个 初始 化 操作 
sess.run(init) 
# 步骤 4: 评估 合并 的 摘要 
Summary = sess.run (merged) 
# 步骤 5: 将 摘要 添加 到 写 入 器 ( 即 事件 文件 ) 以 写 入 硬盘 


writer.add summary (summary, step) 


print ('Done writing the summaries') 

给 summary.image0 用 于 写 出 和 可 视 化 张 量 作为 图 像 。 在 神经 网 络 的 情况 下 ， 它 通 
常用 于 追踪 馈送 到 网 络 (如 在 每 批 中 ) 或 在 输出 中 生成 的 图 像 ( 如 在 自动 编码 器 中 重 
建 的 图 像 》。 一 般 来 说 ， 它 可 以 用 于 绘制 任何 张 量 。 例 如 ， 我 们 可 以 将 大 小 为 30x40 
的 权重 矩阵 可 视 化 为 30 像素 x40 像素 的 图 像 。 

图 像 摘 要 可 以 使 用 以 下 代码 创建 。 
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tf.summary.image (name, tensor, max outputs=3) 

其 中 name 为 生成 节点 的 名 称 ( 即 操作 〉; tensor 为 要 写成 图 像 摘要 的 期 望 张 量 ;max 
outputs 为 张 量 中 生成 图 像 的 最 大 元 素数 量 。 但 这 是 什么 意思 呢 ? 答案 是 ， 在 于 张 量 的 
形状 。 

我 们 提供 给 共 summary.image() 的 张 量 必须 是 形状 的 四 维 张 量 [batch_size、height、 
width、channels]， 其 中 batch_size 为 批 次 中 图 像 的 数量 ，height 和 width 分 别 为 高 度 和 
宽度 ， 它 们 决定 图 像 的 大 小 ; channels 为 通道 ， 它 的 值 包括 1 用 于 灰 度 图 像 、3 用 于 
RGB( 即 彩色 ) 图 像 、4 用 于 RGBA 图 像 (A 代表 Alpha 值 ) 。 

以 下 是 一 个 非常 简单 的 例子 。 


import tensorflow as tf 


tf.reset default graph ()  # 清 除 先前 单元 格 的 已 定义 变量 和 操作 


下 


# 创 建 变 量 

Ww gs =tf.get variable('W Grayscale', shape=[30, 10], initializer=tf.truncated 
normal initializer (mean=0, stddev=1)) 

Ww C= tf.get variable('W Color', shape=[50, 30], initializer=tf.truncated 
normal initializer (mean=0, stddev=1)) 


# 步骤 0: _ 将 变量 重新 塑造 成 四 维 张 量 

Ww gs reshaped = tf.reshape(w gs, (3, 10, 10, 1)) 

WwW C reshaped = tf.reshape(w c, (5, 10, 10, 3)) 

# 步骤 1: _ _ 创建 摘要 

gs summary = tf.summary.image('Grayscale', Ww gs reshaped) 

c summary = tf.summary.image('Color', Ww c¢ reshaped, max outputs=5) 
# 步骤 2: _ _ 合并 所 有 摘要 


merged = tf.summary.merge all() 


# 创 建 用 于 初始 化 所 有 变量 的 操作 


init = tf.global variables initializer() 
# 在 会 话 中 启动 图 形 
with tf.Session() as sess: 

8# 步骤 3: 在 会 话 中 创建 写 入 器 


writer = tf.summary.FileWriter('./graphs', sess.graph) 


# 初 始 化 所 有 变量 
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sess.run(init) 


# 步骤 4: 评估 合并 的 操作 以 获得 摘要 


summary = sess.run (merged) 


# 步骤 5: 将 摘要 添加 到 写 入 器 ( 即 事件 文件 ) 以 写 入 硬盘 


writer.add summary (summary) 
print ('Done writing the summaries') 
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打开 TensorBoard 界面 并 切换 到 IMAGES 选项 卡 ， 图 像 应 该 类 似 于 图 7-10。 


图 7-10 在 TensorBoard 中 生成 的 图 像 


我 们 可 以 将 任何 尺寸 的 其 他 图 像 添加 到 摘要 中 ， 并 将 它们 绘制 在 TensorBoard 中 。 


下 面 讨论 如 何 将 参数 保存 到 磁盘 并 从 磁盘 恢复 已 保存 的 参数 。 网 络 的 可 保存 /可 恢 


复 的 参数 是 变量 〈 即 权重 和 偏差 ) 。 为 了 保存 和 恢复 变量 ， 你 所 需要 做 的 就 是 在 图 结 
尾 调 用 tftrain.Saver()。 


可 


# 创 建 图 

X = tf.placeholder(..) 
Y = tf.placeholder(..) 
w= tf.get variable(..) 
b = tf.get variable(..) 


loss = tf.1osses.mean squared error(..) 
optimizer = tf.train.AdamOptimizer(..) .minimize (loss) 
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saver = tf.train.Saver() 
在 训练 模式 下 ， 可 以 在 会 话 中 初始 化 变量 并 运行 网 络 。 在 训练 结束 时 ， 可 以 使 用 
saver.save() 保 存 变 量 。 


with tf.Session() as sess: 
sess.run (tf.global variables initializer()) 


# 训 练 模型 
for step in range (steps) : 
sess.run (optimizer) 


a = saver.save(sess, './my-model', global step=step) 
上 述 代码 将 创建 3 个 文件 (data、index、meta) ， 并 且 带 有 保存 模型 的 步 又 后 级 。 
在 测试 模式 下 , 可 以 在 会 话 中 使 用 saver.restore0 恢 复 变 量 并 验证 或 测试 我 们 的 模型 。 
# 测 试 


with tf.Session() as sess: 
saver.restore (sess, './my-model') 


为 了 实现 在 TensorFlow 中 保存 和 恢复 两 个 变量 ,我 们 将 创建 一 个 包含 两 个 变量 的 
图 。 创建 a= [3 3] 和 b=[55 5] 两 个 变量 ， 实 现代 码 如 下 : 

import tensorflow as tf 

# 创 建 变 量 a 和 b 

a = tf.get variable("A", initializer=tf.constant(3, shape=[2])) 

b = tf.get variable("B", initializer=tf.constant(5, shape=[3])) 


注意 ， 上 述 代 码 中 小 写字 母 a、b 为 Python 名 称 ， 大 写字 母 A、B 为 TensorFlow 
名 称 。 当 我 们 想 要 导入 图 来 恢复 数据 时 ， 这 一 点 很 重要 。 

变量 在 使 用 前 需要 初始 化 。 初 始 化 所 有 变量 的 实现 代码 如 下 : 

# 初 始 化 所 有 变量 

init op = tf.global variables initializer() 

在 会 话 中 ， 初 始 化 变量 并 运行 以 查看 值 。 

# 运 行 会 话 


with tf.Session() as sess: 
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所 有 变量 都 存在 于 会 话 范围 内 。 会 话 结束 后 ， 我 们 将 放弃 这 些 变 量 。 为 了 保存 变 
量 ， 我 们 将 在 图 中 使 用 tttrain.SaverO 调 用 保存 函数 。 该 函数 将 查找 图 中 的 所 有 变量 ， 
我 们 可 以 在 _var list 中 看 到 所 有 变量 的 列表 。 创 建 一 个 saver 对 象 并 查看 对 象 中 的 _var_list， 
实现 代码 如 下 : 


输出 结果 : 


可 见 ， 我 们 的 图 由 上 面 列 出 的 两 个 变量 组 成 。 注 意 ， 变 量 名 称 末尾 有 0。 

既然 保存 对 象 是 在 图 形 中 创建 的 ， 那 么 在 会 话 中 ， 我 们 可 以 调用 函数 saver.save() 
将 变量 保存 在 磁盘 中 。 我 们 必须 将 创建 的 会 话 (sess) 和 想 要 保存 变量 的 文件 路 径 传递 
给 函数 save()。 
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Print ('model saved in {}'.format (saved path) ) 


模型 保存 在 ./saved_variable 中 。 如 果 检 查 工 作 目 录 ， 会 注意 到 创建 了 3 个 名 为 


saved_variable 的 新 文件 。 


import os 
For file in os listdirn(n 3 
if 'saved variable' in file: 


print (file) 


saved variable.data-00000-of-00001 
saved variable.meta 
saved variable.index 


这 里 的 .data 文件 包含 变量 值 ，.meta 文件 包含 图 形 结构 ，.index 文件 标识 检查 点 。 
使 用 saver.restore() 在 会 话 中 加 载 已 保存 的 变量 。 


# 运 行 会 话 

with tf.Session() as sess: 
# 恢 复 保存 的 变量 
saver.restore (sess, './saved variable') 
# 打 印加 载 的 变量 


a out, b out = sess.run([a, b]) 
print('a = ', a out) 
Print('b = ', b out) 
输出 结果 : 
INFO:tensorflow:Restoring parameters from ./saved variable 
a= [3 3] 
b= S55 


注意 ， 这 次 没有 在 会 话 中 初始 化 变量 ， 而 是 从 磁盘 中 恢复 它们 。 为 了 恢复 参数 ， 


应 该 定义 图 形 。 由 于 在 项 部 定义 了 图 形 ， 因 此 恢复 参数 时 没有 出 现 问题 。 


除了 在 代码 中 定义 图 形 ， 还 可 以 从 meta 文件 恢复 图 形 。 当 保存 这 些 变量 时 ， 会 创建 


一 个 包含 图 形 结构 的 .meta 文件 。 因 此 ， 我 们 可 以 使 用 给 train.import meta_graph0 导 入 元 


图 六 


F 恢 复 图 的 值 。 导 入 图 形 并 查看 图 中 的 所 有 张 量 ， 实 现代 码 如 下 : 
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斐 删除 当前 图 形 
tf.reset default graph() 


坦 从 文件 中 导入 图 形 
imported graph = tf.train.import meta graph('saved variable.meta') 


坦 列 出 图 中 的 所 有 张 量 
for tensor in tf.get default graph() .get operations () : 
print (tensor .name) 


现在 有 导入 的 图 形 ， 如 果 对 张 量 A 和 B 感 兴趣 ， 可 以 用 以 下 命令 恢复 参数 。 
塌 运 行 会 话 
with tf.Session() as sess: 


# 恢 复 保存 的 变量 


imported graph.restore(sess, './saved variable') 


# 打 印加 载 的 变量 

a out, b out = sess.run(['A:0','B:0']) 
print('a = ', a out) 

Print('b = ', b out) 


输出 结果 : 


INFO:tensorflow:Restoring parameters from ./saved variable 
a= [3 3] 
:| 


注意 ， 在 sess.run() 中 ， 我 们 是 使 用 张 量 'A:0' 和 'B:0' 的 TensorFlow 名 称 ， 而 不 是 使 
用 a 和 b。 

Saver 主要 用 于 生成 变量 的 检查 点 。SavedModel 将 取代 现 有 的 TensorFlow 推理 模 
型 格式 ， 作 为 导出 TensorFlow 图 形 进 行 服务 的 标准 方式 。TensorFlow 的 SavedModel 
格式 包括 有 关 模 型 的 所 有 信息 〈 图 形 、 检 查 点 状态 、 其 他 元 数据 ) 。 所 以 如 果 想 在 Java 
中 使 用 它 ， 可 以 使 用 SavedModelBundle load0) 。 

Python 中 的 保存 模型 代码 如 下 : 


import tensorflow as tf 


import os 
x = tf.placeholder (tf.float32, name='x') # 模 型 输入 
Ww = tf.get variable('w',shape=[1,1], initializer=tf.random normal 


initializer()) 
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b =tf.get variable('b'，shape=[1，1]，initializer=tf.zeros initializer()) 
y = tf.add(b, tf.matmul (x, w), name="'y') # 模 型 输出 


training steps = 51 
with tf.Session() as sess: 
sess.run (tf.global variables initializer()) 
for train step in range(1，training steps) : 
入 
# 运 行 训练 操作 
| 
if train step $ 50 == 0: # 每 隔 50 步 保存 一 次 
# 将 train_step 添加 到 export dir 
export dir = os.getcwd() + '/savedModel-' + str(train step) 
nputsadict = 0 xen :xk ## 字 符 串 名 称 不 等 于 张 量 名 称 
outputs dict = {'y': y} # 字 符 串 名 称 等 于 张 量 名 称 
tf.saved model.simple save (sess，export dir, inputs=inputs dict, 
outputs=outputs dict) 
print('y: %.4f' % (sess.run(y, feed dict={ x: [[1]] }))) 


tf.reset default graph() # 清 除 图 结构 
with tf.Session() as sess: 
# 加 载 图 形 和 变量 
export dir = os.getcwd() + '/savedModel-50' 
meta graph def = tf.saved model.loader.load(sess, [tf.saved model.tag 
constants.SERVING], export dir) 
# 获 取 将 输入 /输出 字符 串 名 称 映射 到 张 量 的 签名 定义 


sig def = meta graph def.signature def[tf.saved model.signature constants. 
DEFAULT SERVING SIGNATURE DEF KEY] 


x name = sig def.inputs['x in'] .name # 获 取 输 入 张 量 名 称 
X = tf.get default graph() .get tensor by name (X name) 
y_name = sig def.outputs['y'] .name # 获 取 输 出 张 量 名 称 


y = tf.get default graph() .get tensor by name (Y name) 
print('y: %$.4f' %$ (sess.run(y, feed dict={ x: [[1]] }))) 
#Output : 
x 02009. 
052909 


训练 时 执行 的 计算 过 程 和 推理 时 执行 的 计算 过 程 不 一 样 。 
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神经 网 络 是 深度 学 习 的 第 一 步 。 深 度 学 习 的 名 字 来 源 于 计算 机 科学 家 希望 用 神经 
元 的 相同 功能 来 模拟 大 脑 结构 的 概念 。 深 度 学 习 的 关键 点 是 ， 它 可 以 分 离 不 能 线性 分 
离 的 数据 。 

要 构建 任何 分 类 器 ， 代 码 需 要 如 下 部 分 。 

人 为 网 络 准备 所 需 的 库 ， 输 入 数据 和 超 参 数 。 

@ 建 立 网 络 图 。 

@ 训 练 网 络 。 

@ 测 试 网 络 。 

为 了 能 够 使 用 matplotlib， 先 安装 matplotlib 依赖 的 tkinter。 

$sudo apt-get install python3-tk 

从 导入 所 需 的 库 开始 。 


#imports 


import tensorflow as tf 
import numpy as np 
import matplotlib.pyplot as plt 


在 这 里 ， 我 们 使 用 MNIST 数据 集 。MNIST 是 手写 数字 的 数据 集 ， 是 深度 学 习 数 
据 集 的 基准 。 使 用 MNIST 的 另 一 个 原因 是 通过 TensorFlow 很 容易 访问 。 

该 数据 集 包含 55 000 个 训练 示例 ， 其 中 5 000 个 用 于 验证 的 示例 ，10 000 个 用 于 
测试 的 示例 。 这 些 数字 图 像 已 经 进行 了 尺寸 标准 化 并 以 固定 尺寸 图 像 (28 像素 x28 像素 ) 
为 中 心 。 图 像 中 的 像素 点 用 值 为 0 一 1 的 数 表示 。 为 了 简单 起 见 ， 每 幅 图 像 都 被 平展 并 
转换 为 784 个 特征 的 一 维 numpy 阵列 (28x28) 。 

我 们 可 以 轻松 导入 数据 集 并 查看 训练 、 测 试 和 验证 集 的 大 小 。 

# 导 入 MNIST 数据 

from tensorflow.examples.tutorials.mnist import input data 


mnist = input data.read data sets ("MNIST data/", one hot=True) 


print ("size of:") 


Print ("- Training-set:\t\t{}".format (len (mnist.train.labels))) 
print ("- Test-set:\t\t{}".format (len (mist.test.]labels))) 
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print("- Validation-set:\t{}".format (len(mnist.validation.labels))) 
输出 结果 : 


超 参数 是 使 网 络 无 法 学 习 的 重要 参数 。 我 们 必须 在 外 部 指定 超 参数 ， 实 现代 码 
如 下 : 


在 开始 构建 图 之 前 ， 我 们 需要 快速 地 完成 一 些 功能 。 因 此 ， 我 们 不 会 多 次 调用 它 
们 ， 而 是 定义 一 些 有 用 的 函数 ， 在 图 中 调用 这 些 函 数 。 最 重要 的 是 用 于 创建 权重 和 偏 
差 变 量 的 函数 。 由 于 正在 创建 一 个 神经 网 络 ， 因 此 我 们 需要 一 个 完全 连接 的 层 来 将 上 
一 层 的 所 有 节点 连接 到 我 们 的 层 。 
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return layer 


有 了 帮助 函数 ， 我 们 可 以 创建 自己 的 图 结构 ， 实 现代 码 如 下 : 

# 创 建 图 结构 

#inputs (x) 和 outputs (Y) 的 占 位 符 

x = tf.placeholder (tf.float32, shape=[None, img size flat], name='X') 

y = tf.placeholder (tf.float32, shape=[None, n classes], name="'Y') 

fcl = fc layer(x, hl, 'FC1', use relu=True) 

output logits = fc layer(fcl, n classes, 'OUT', use relu=False) 

碍 定义 损失 函数 、 优 化 器 和 准确 度 

loss=tf.reduce mean (tf.nn.softmax cross entropy with logits (Labels=y， 
logits=output logits), name='l0oss') 

optimizer=tf.train.AdamOoptimizer (learning rate=learning rate,name= 'Adam- 
op') .minimize (lo0ss) 

correct prediction= tf.equal (tf.argmax (output logits, 1), tf.argmax(y, 1), 
name='correct pred') 

accuracy=tf.reduce mean (tf.cast (correct . prediction, tf.float32),name="'accuracy') 

# 网 络 预测 

cls prediction = tf.argmax (output logits, axis=1, name="'predictions') 

# 初 始 化 变量 


init = tf.global variables initializer() 

创建 出 图 结构 以 后 ， 我 们 就 可 以 在 会 话 上 运行 它 ( 运 行 时 可 以 使 用 丝 Session())。 
注意 ， 一 旦 运行 单元 ， 会 话 就 会 结束 ， 并 将 丢失 所 有 信息 。 因 此 ， 我 们 将 定义 一 个 
InteractiveSession 来 保存 参数 用 于 测试 。 

# 在 会 话 中 启动 图 形 


sess = tf.InteractiveSession ()# 是 使 用 InteractiveSession, 而 不 是 使 用 Session 
来 测试 单独 单元 中 的 网 络 

sess.run (init) 

# 每 个 回合 的 训练 送 代 次 数 


num tr iter = int(mnist.train.num examples / batch size) 


for epoch in range (epochs): 
print ('Training epoch: {}'.format (epoch+1)) 
for iteration in range(num tr iter): 


batch x, batch y = mist.train.next batch(batch size) 
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ida 


使 用 上 述 代码 训练 好 模型 后 ， 现 在 是 测试 模型 的 时 候 了 。 我 们 将 定义 一 些 辅助 函 
数 来 绘制 一 些 图 像 及 其 相应 的 预测 和 真实 类 ， 还 将 可 视 化 一 些 错误 分 类 的 样本 ， 以 了 
解 为 什么 神经 网 络 未 能 正确 分 类 。 


los 
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服务 器 版 本 的 Ubuntu 需要 安装 图 形 界面 : 


8 
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使 用 卷 积 神经 网 络 可 以 减少 分 类 错误 。 接 下 来 ， 我 们 在 TensorFlow 中 实现 一 个 简 
单 的 卷 积 神经 网 络 一 一 用 两 个 卷 积 层 后 接 两 个 全 连接 层 。 
加 载 MNIST 数据 的 辅助 函数 : 
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在 训练 模式 下 使 用 已 定义 的 辅助 函数 加 载 训练 和 验证 图 像 及 相应 的 标签 ， 并 显示 
数据 集 的 大 小 。 
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超 参 数 : 


创建 网 络 辅助 函数 。 
用 于 创建 新 变量 的 辅助 函数 : 
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用 于 创建 新 卷 积 层 的 帮助 函数 : 
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用 于 创建 一 个 新 的 、 最 大 池 图 层 的 帮助 函数 : 


用 于 展开 图 层 的 辅助 函数 : 
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用 于 创建 新 全 连接 层 的 辅助 函数 : 


创建 卷 积 神经 网 络 图 。 
输入 x 和 相应 标签 y 的 占 位 符 : 


创建 网 络 层 : 
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定义 损失 函数 、 优 化 器 、 准 确 度 和 预测 类 : 


riab. 


初始 化 变量 ， 并 合并 所 有 摘要 : 


训练 : 
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测试 : 
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EU | 

# 绘 制 一 些 正确 和 错误 分 类 的 例子 

cls pred = sess.run(cls prediction, feed dict=feed dict test) 

cls true = np.argmax(y test, axis=1) 

plot images(x test, cls true, cls pred, title='Correct Examples') 

plot example errors(x test, cls true, Ccls pred, title='Misclassified 
Examples') 

plt.show() 


用 TensorFlow 读 入 一 个 图 像 列表 : 


import tensorflow as tf 

filenames = ['/home/aaa/firefox.jpg'] 

filename queue = tf.train.string input producer (filenames) 
reader = tf.WholeFileReader() 

key, value = reader.read (filename queue) 


images = tf.image.decode jpeg (value, channels=3) 

TensorFlow 提供 了 更 高 级 别 的 Estimator API， 其 中 包含 用 于 训练 和 预测 数据 的 预 
建 模型 。TensorFlow 官方 模型 (https://github.com/tensorflow/models/tree/master/official) 
是 使 用 TensorFlow 高 级 API 的 示例 模型 集合 。 

训练 并 保存 模型 : 

$python3 mnist.py --export dir /home/ai/mnist saved model 

或 者 使 用 nohup 命令 脱离 控制 台 运 行 : 


$nohup python3 mnist.py --export dir /home/ai/mnist saved model & 


显示 模型 文件 : 
$saved model cli show --dir /home/ai/mnist saved model/1530443317 --all 
使 用 TensorFlow 中 的 方法 加 载 图 像 : 


from tensorflow.python.1ib.io import file io 


d= np.load(file io.FileIO("F:/models-master/official/mnist/examples.npy", 
mode='rb')) 


plt.imshow(d[1], cmap=plt.cm.gray) 
plt.show() 
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运行 模型 文件 : 
$saved model cli run --dir /home/ai/mnist saved model/1530443317 --tag set 


serve --signature def classify --inputs image=examples.npy 


可 能 的 输出 结果 如 下 : 


Result for output key classes: 

[5 3] 

Result for output key probabilities: 

[[ 1.53558474e-07 -95694142e-13 1.31193523e-09 5.47467265e-03 
5.85711526e-22 94520664e-01 3.48423509e-06 2.65365645e-17 
9.78631419e-07 15522470e-08] 

[ 1.22413359e-04 87615965e-08 1.72251271le-06 9.39960718e-01 
3.30306928e-11 87386645e-02 2.823535]l7e-02 8.21146413e-18 
2.52568233e-03 15460236e-04]] 
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7.3.7 一 维 卷 积 


要 手动 计算 一 维 卷 积 ， 可 以 在 输入 上 滑动 内 核 ， 求 逐 元 素 乘 法 并 对 它们 求 和 。 最 
简单 的 方法 是 padding=0, stride=1。 因 此 ， 如 果 你 的 输入 为 [1,0,2,3,0,1,1]， 并 且 卷 积 核 
为 [2,1,3]， 则 卷 积 的 结果 为 [8,11,7,9,4]， 这 是 按 以 下 方式 计算 的 。 

8=1x2+0x1+2x3 

11=0x2+2x1+3x3 

7=2x2+3x1l1+0x3 

9=3x2+0x1l+1x3 

4=0x2+1x1+1x3 

TensorFlow 的 函数 全 nnconv1d0 分 批 计算 卷 积 , 为 了 在 TensorFlow 中 执行 此 操作 ， 
我 们 需要 以 正确 的 格式 提供 数据 。 处 理 批 次 的 操作 ， 假 设 Tensor 的 第 一 个 维度 是 批量 
维度 ， 这 里 设置 批 大 小 为 1。 计 算 一 维 卷 积 的 代码 如 下 : 


import tensorflow as tf 
i = tf.constant ([1, 0, 2, 3, 0, 1, 1], dtype=tf.float32, name="'i') 
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k = tf.constant([2, 1, 3], dtype=tf.float32, name="Kk"') 

ent a Nn rn 

data = tf.reshapel(i, [1, int(i.shape[0]), 1], name='data') 
kernel = tf.reshape(k, [int(k.shape[0]), 1, 1], name='kernel') 
print (data, '\n', kernel, '\n') 

stride=1; 

res = tf.squeeze (tf.nn.convld(data, kernel, stride, 'VALID')) 
with tf.Session() as sess: 


print (sess.run (res)) 


填充 〈Padding) 只 是 以 一 种 奇特 的 方式 来 告知 进行 追加 并 在 输入 前 添加 一 些 值 。 


在 大 多 数 情况 下 , 此 值 为 0, 所 以 大 多 数 人 将 其 命名 为 零 填充 。TensorFlow 支持 VALID' 
和 'SAME' 零 填充 ， 对 于 任意 填充 ， 需 要 使 用 ttpadO)。'VALID' 填 充 意味 着 根本 没有 填 
充 ， 这 意味 着 输出 将 与 输入 具有 相同 的 大 小 。 让 我 们 在 同一 个 例子 中 用 padding = 1 来 
计算 卷 积 〈 注 意 ， 对 于 我 们 的 内 核 ， 这 是 'SAME' 填 充 ) 。 为 此 ， 我 们 只 需 在 数组 的 开 


头 / 结 尾 添 加 1 个 零 值 ， 即 input = [0,1,0,2,3,0,1,1,0]。 在 这 里 ， 可 以 注意 到 你 不 需要 


新 计算 所 有 内 容 一 -除了 第 一 个 /最 后 一 个 元 素 之 外 ， 所 有 元 素 保持 不 变 。 


十 


1=0x2+1x1l+0x3 
3=1x2+1x1l+0x3 
因此 ， 结 果 是 [1, 8, 11, 7, 9, 4, 3]， 与 TensorFlow 计算 的 相同 。 


res = tf.squeeze (tf.nn.convld(data, kernel, 1, 'SAME')) 
with tf.Session() as sess: 


print sess.runl(res) 


民 


以 上 是 使 用 步 长 (Stride) 的 卷 积 。 步 长 允许 用 户 在 滑动 时 跳 过 元 素 。 在 之 前 的 所 
有 示例 中 ， 我 们 滑动 了 1 个 元 素 ， 当 然 也 可 以 一 次 滑动 s 个 元 素 。 因 此 ， 如 果 我 们 使 
用 前 面 的 示例 padding = 1 并 将 stride 更 改 为 2， 则 只 需 获取 前 一 个 结果 [1,8,11,7,9,4,3] 
并 每 次 在 第 二 个 元 素 处 留 下 值 , 得 到 结果 [1,11,9,3]。 你 可 以 通过 以 下 方式 在 TensorFlow 


执行 此 操作 。 


res = tf.squeeze (tf.nn-convld(data，kerne1，2， 'SAME')) 


with tf.Session() as sess: 
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print sess.run(res) 


7.3.8 二 维 卷 积 


函数 给 nn.conv2d0 可 以 实现 二 维 卷 积 。 在 最 基本 的 示例 中 , 没有 填充 ,， 且 stride = 1。 
让 我 们 假设 你 的 输入 和 内 核 为 : 


4310 

|! 
et K=|2 1 0 
和 和 

人 看 
102 


14 6 
应 用 卷 积 运算 后 ， 得 到 以 下 输出 结果 : |。 | 
这 个 输出 是 通过 以 下 方式 计算 的 : 
14=4x1+3x0+1x1+2x2+1x1+0x0+1x0+2x0+4x1 


6=3x1+1x0+0x1+1x2+0x1+1x0+2x0+4x0+1x1l 
6=2x1+1x0+0x1+1x2+2x1+4x0+3x0+1x0+0x1 
12=1x1+0x0+1x1+2x2+4x1+1x0+1x0+0x0+2x1 
TensorFlow 的 函数 conv2d0 分 批 计算 卷 积 并 使 用 稍微 不 同 的 格式 。 对 于 输入 ， 格 
式 为 [batch, in_height in_ width, in_channels]。 对 于 内 核 ,格式 为 [filter_height, filter_ width， 
in_channels, out_channels]。 所 以 我 们 需要 以 正确 的 格式 提供 数据 : 


import tensorflow as tf 
k = tf.constant ([ 
| 
| a ee 
lo Or LI 
], dtype=tf.float32, name="'k') 
i = tf.constant ([ 
Ea S00 
P20 
5 Pe | 
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[3, 1, 0, 2] 
], dtype=tf.float32, name="i') 
kernel = tf.reshape(k, [3, 3, 1, 1], name=’kernel') 


image = tf.reshape(i, [1l, 4, 4, 1], name='image') 

通过 以 下 方式 计算 二 维 卷 积 : 

res = tf.squeeze (tf.nn.conv2d(image, kernel, [1, 1, 1, 1], "VALID")) 
#VALID 表示 没有 填充 


with tf.Session() as sess: 


print (sess.run (res)) 
输出 结果 将 等 同 于 我 们 手工 计算 的 那个 矩阵 。 
用 一 些 常 量 围绕 矩阵 。 在 大 多 数 情况 下 ， 这 种 常量 为 0， 这 就 是 人 们 称 之 为 零 填 
充 的 原因 。 因 此 ， 如 果 你 想 在 我 们 的 原始 输入 中 使 用 1 的 填充 〈 检 查 第 一 个 示例 ， 
padding = 0，strides= 1) ， 和 矩阵 如 下 : 


00 000 
043 100 
0 2.1 0 10 
12244109 
3 直人 全 
00000 0 


要 计算 卷 积 的 值 ， 可 执行 相同 的 滑动 。 注 意 ， 在 我 们 的 情况 下 ， 中 间 的 许多 值 不 
需要 重新 计算 ， 因 为 它们 与 前 面 的 示例 相同 。 也 不 会 在 此 显示 所 有 计算 ， 因 为 这 个 算 
法 很 简单 。 结 果 为 : 


5 -有 治 - 冯 
4 6 2 
: 二 .县 : 汐 
J 3 
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这 里 : 
S=0xl+0x0+0x1l+0x2+4x1l+3x0+0x0+0x1l+1x1l 


6=4x1l+1l1x0+0xl+0x2+2x1l+0x0+0x0+0x0+0x1l 

TensorFlow 不 支持 函数 conv2d0 中 的 任意 填充 ， 如 果 需 要 一 些 它 不 支持 的 填充 ， 
可 使 用 函数 萎 pad0。 幸 运 的 是 ， 对 于 我 们 的 输入 ,填充 SAME 相当 于 padding = 1。 因 
此 我 们 几乎 不 需要 对 前 面 的 示例 做 任何 改变 。 


res = tf.squeeze (tf.nn.conv2d(image, kernel, [1, 1, 1, 1], "SAME")) 
# "SAME ' 确保 输出 与 输入 具有 相同 的 大 小 ,并 使 用 适当 的 填充 


# 在 我 们 的 例子 中 填充 值 为 1 


with tf.Session() as sess: 


print sess.run(res) 
你 可 以 验证 答案 是 否 与 手动 计算 的 答案 相同 。 
图 像 处 理 中 的 卷 积 核 参 数 在 使 用 训练 的 方法 调整 以 前 , 往往 设置 成 一 些 固定 的 值 。 
例如 锐 化 参数 : 
sharpenmatriz 0nd 0020 0 0 e020 000 0 20 
# 使 用 初始 化 器 (initializer) 初始 化 卷 积 核 


init = tf.constant initializer(sharpenMatrix) 


W= tf.get variable('W', shape=[3, 3], initializer=init) 


完整 的 代码 如 下 : 
SharpenMatri Iolo O02 0000 0020 e020 0020 080 
init = tf.constant initializer (sharpenMatrix) 
W= tf.get variable('W', shape=[3, 3], initializer=init) 
斐 添加 一 个 操作 来 初始 化 全 局 变量 
init op = tf.global variables_initializer() 
# 在 会 话 中 运行 计算 图 
with tf.Session() as sess: 
# 运 行 变量 初始 化 器 操作 
sess.run(init op) 
非 评估 变量 的 值 


print (sess.run (W)) 


ss 
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7.3.9 扩张 卷 积 


扩张 卷 积 (Dilated Convolution) 是 针对 图 像 语 义 分 割 问题 中 采样 会 降低 图 像 分 辩 
率 、 丢 失信 息 而 提出 的 一 种 卷 积 思路 。 

完全 卷 积 表明 神经 网 络 只 由 卷 积 层 组 成 ， 没 有 任何 完全 连接 的 层 或 通常 在 网 络 
末端 找到 的 多 层 感 知 器 (MLP) 。 具 有 完全 连接 层 的 CNN 就 像 完全 卷 积 一 样 ， 可 
以 端 到 端 地 学 习 。 与 具有 完全 连接 层 的 CNN 的 主要 区 别 在 于 ， 完 全 卷 积 网 在 任何 
地 方 都 是 学 习 过 滤器 ， 甚 至 网 络 末端 的 决策 层 都 是 过 滤器 。 完 全 卷 积 网 试图 学 习 表 
示 并 根据 局 部 空间 输入 做 出 决策 。 附 加 的 完全 连接 层 使 得 网 络 能 够 使 用 全 局 信息 来 
学 习 某 些 内 容 ， 输 入 的 空间 布局 消失 于 其 中 。 当 不 需要 用 到 输入 的 空间 布局 时 ， 可 
以 使 用 附加 的 完全 连接 层 。 

增加 原本 紧密 贴 着 的 卷 积 核 元 素 之 间 的 距离 ， 但 卷 积 核 需要 计算 的 点 不 变 ， 也 就 
是 多 余 出 来 的 位 置 全 填 0。 卷 积 核 的 感知 区 域 变 大 了 , 又 由 于 卷 积 核 中 的 有 效 计算 点 不 
变 ， 所 以 计算 量 不 变 。 每 层 的 特征 图 尺寸 都 不 变 ， 所 以 图 像 信息 都 保存 了 下 来 。 

D- 扩 张 的 KxKK 卷 积 在 进行 通常 的 卷 积 计算 之 前 扩大 卷 积 核 。 扩 大 卷 积 核 ， 意 味 着 
扩大 其 尺寸 ， 用 零 填充 空位 置 。 实 际 上 ， 并 没有 创建 扩展 的 卷 积 核 。 相 反 ， 卷 积 核 元 
素 (权重 ) 与 输入 矩阵 中 的 远 〈 不 相 邻 ) 元 素 匹 配 。 距 离 由 扩张 系数 万 确定 。 图 7-11 
显示 了 卷 积 核 元 素 如 何 与 D- 扩 张 的 3x3 卷 积 中 的 输入 元 素 匹 配 ( 当 卷 积 核 的 中 心 与 输 
入 矩阵 的 中 心 对 齐 时 ) 。 注 意 ， 对 于 D= 1， 将 获得 标准 卷 积 。 

D=1 


图 7-11 扩张 卷 积 
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在 DD- 扩 张 卷 积 中 ， 通 常 步 幅 是 1， 但 也 可 以 使 用 其 他 步 幅 。 


7.3.10 TensorFlow 实现 简单 的 语音 识别 


本 小 节 使 用 TensorFlow 识别 10 个 英文 单词 一 yes、no、up、down、left、right、 
on、 off、stop、go。 

首先 使 Git 得 到 TensorFlow 源 代码 ， 然 后 在 TensorFlow 源码 树 下 运行 训练 脚本 。 

#python3 tensorflow/examples/speech commands/train.py 

执行 上 述 命令 后 ， 会 自动 开始 下 载 语 音 指令 数据 集 。 这 个 数据 集 包含 由 说 话 者 说 
30 个 不 同 单词 的 超过 105 000 个 的 WAVE 文件 。 这 个 存档 文件 容量 超过 2GB, 因此 下 
载 可 能 需要 一 段 时 间 ， 但 你 应 该 能 够 看 到 进度 日 志 。 一 旦 下 载 完 成 ， 就 不 用 再 执行 此 
步骤 了 。 程 序 会 把 数据 集 文件 下 载 到 /tmp (临时 ) 目录 下 。 

下 载 完成 后 ， 就 将 看 到 下 面 的 训练 日 志 记录 信息 。 

I0730 16:53:44.766740 55030 train.py:176] Training from step: 1 


I0730 16:53:47.289078 55030 train.py:217] Step #1: rate 0.001000, accuracy 7%, 


cross entropy 2.611571 
这 表明 初始 化 过 程 已 经 完成 ， 训 练 循环 已 经 开始 。 以 下 是 对 日 志 记录 信息 的 详细 
解释 。 


。 Step #1 表明 我 们 正 处 于 训练 循环 的 第 一 步 。 在 这 个 例子 中 ， 总 共 将 有 18 000 个 
步 又， 因此 您 可 以 查看 步骤 编号 ， 以 了 解 训练 距离 完成 还 有 多 远 。 

。 速率 0.001000 是 控制 网 络 权重 更 新 速度 的 学 习 速 率 。 早 期 这 是 一 个 相对 较 高 的 
数字 ， 但 对 于 后 来 的 训练 周期 ， 它 将 降低 到 0.0001 。 

。 准确 度 7% 表 示 在 此 训练 步骤 中 有 多 少 类 正确 预测 出 来 。 这 个 值 经 常会 波动 很 
多 ， 但 随 着 训练 的 进行 ， 平 均值 会 增加 。 模 型 输出 一 个 数字 数组 ， 每 个 数字 是 
输入 的 预测 可 能 性 。 通 过 选择 具有 最 高 分 数 的 条 目 来 挑选 预测 标签 ， 分 数 始终 
在 0 和 1 之 间 ， 较 高 的 值 表示 对 结果 更 有 信心 。 
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交叉 2.611571 是 我 们 用 来 指导 训练 过 程 的 损失 函数 的 结果 。 这 是 通过 将 当前 
训练 运行 的 得 分 向 量 与 正确 标签 进行 比较 而 获得 的 得 分 ， 并 且 这 个 值 应 该 在 训 
练 期 间 呈 下 降 趋 势 。 


I0730 16:54:41.813438 55030 train.py:252] Saving to "/tmp/speech commands 


train/conv.ckpt-100" 


这 样 可 以 将 当前 训练 的 权重 保存 到 检查 点 文件 中 。 如 果 训 练 脚本 被 中 断 ， 可 以 查 


找 上 次 保存 的 检查 点 ， 然 后 使 用 --start_checkpoint=/tmp/speech _ commands train/conv. 


ckpt-100 作为 命令 行 参数 从 该 点 开始 重新 启动 脚本 。 
经 过 400 步 后 ， 记 录 的 混淆 矩阵 信息 如 下 : 


I0730 16:57:38.073667 


[ 
[ 
[ 
[ 
[ 
[ 
[ 
[ 
[ 
[ 


0 
6 
1 
3 
-| 
1 
6 
3 
2 
1 
6 
1 


0 


0 
94 
80 

163 
114 
97 
84 
112 
94 
74 
71 
E35 


55030 train.py:243] Confusion Matrix: 


0 


0 
49 
22 
48 
13 
87 
24 
26 
52 
42 
37 
42 
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0 
0 
0 
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1 
1 
0 
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0 
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0 


0 
0 
0 
0 
0 
0 
0 
0 
0 
由 
0 


0] 
11] 
| 
17] 
9] 
10] 
6] 
9] 
2] 
3] 
9] 
20] ] 


要 理解 混淆 矩阵 的 含义 , 首先 需要 知道 正在 使 用 的 标签 , 在 这 种 情况 下 是 "silence"， 


"unknown", "yes", "no 


e "up", "down", "left", "right i ot "stop" 和 "go"。 每 列 代 表 


一 组 预测 为 每 个 标签 的 样本 ， 因 此 第 一 列 代表 预测 为 静音 的 所 有 片段 ， 第 二 列 代表 
所 有 预测 为 未 知 单词 的 片段 ， 第 三 列 代 表 "yes"， 依 此 类 推 。 每 行 用 正确 的 、 真 实 
标签 表示 音频 剪辑 ， 第 一 行 代表 所 有 静音 剪辑 ， 第 二 行 代 表 未 知 单词 ， 第 三 行 代表 
"yes" 等 。 

脚本 训练 完 18 000 步 后 ， 会 显示 一 份 最 终 的 混淆 矩阵 和 一 个 根据 测试 集 得 出 的 准 
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确 率 得 分 。 如 果 你 按照 默认 设置 进行 训练 ， 准 确 率 应 该 在 80% 一 90%。 
训练 完成 后 ， 可 以 执行 以 下 命令 行 ， 导 出 这 个 语音 识别 模型 。 


Python3 tensorflow/examples/speech commands/freeze.py \ 
--start checkpoint=/tmp/speech commands train/conv.ckpt-18000 \ 
--output file=/home/aaa/speech commands/my_ frozen graph.pb 


然后 可 以 用 label_wav.py 脚本 ， 让 这 个 固定 的 模型 识别 音频 。 


Python3 tensorflow/examples/speech commands/label wav.py \ 
--graph=/home/aaa/speech commands/my frozen graph.pb \ 
--labels=/tmp/speech commands train/conv labels.txt \ 
--wav=/tmp/speech dataset/left/a5d485dc nohash 0.wav 


上 述 命令 应 该 会 输出 以 下 3 个 标签 的 得 分 。 


left (score = 0.79622) 
right (score = 0.09350) 
_unknown (score = 0.07849) 


希望 "left" 是 最 高 分 ， 因 为 这 是 正确 的 标签 ， 但 由 于 训练 是 随机 的 ， 可 以 尝试 使 用 
同一 文件 夹 中 的 一 些 其 他 .wav 文件 来 查看 识别 效果 。 标 签 得 分 在 0 和 1 之 间 ， 较 高 的 
值 意味 着 模型 对 其 预测 更 有 信心 。 

除了 返回 识别 单词 的 回归 值 ， 还 可 以 把 识别 出 来 的 每 个 单词 发 音 加 注音 标 。 


7.4 nnet3 实现 代码 


Kaldi 有 3 个 独立 的 深层 神经 网 络 代码 库 , 其 中 开发 最 活跃 的 为 nnet3。 在 egs/wsj/ 
s5/、egs/rm/s5、egs/swbd/s5 和 egs/hkust/s5b 等 示例 目录 中 ， 可 以 找到 神经 网 络 示例 
脚本 。 在 运行 这 些 脚 本 前 ， 必 须 运行 这 些 目 录 中 “run.sh” 的 第 一 阶段 以 构建 用 于 
对 齐 的 系统 。 

nnet3 设置 则 在 以 自然 的 方式 支持 比 简单 的 前 馈 网 络 (例如 RNN 和 LSTM 等 ) 更 
广泛 的 网 络 ， 而 不 需要 任何 实际 的 编码 。 


“216» 


第 7 章 深度 学 习 


7.4.1 数据 类 型 


nnet3 的 设置 基于 一 个 组 件 对 象 ， 其 中 一 个 神经 网 络 是 一 些 组 件 的 堆 登 。 每 个 组 件 
对 应 一 层 神 经 网 络 ， 我 们 将 单 层 的 裙 争 表示 为 仿 射 变换 ， 后 面 跟 着 非 线 性 组 件 ， 所 以 每 
层 有 两 个 组 件 。 这些 旧 的 组 件 具 有 正 向 传播 和 反 向 传播 功能 ， 两 者 都 可 以 在 minibatches 
上 运行 。 该 网 络 有 一 个 时 间 索 引 的 概念 ， 以 支持 直接 作为 框架 一 部 分 的 跨 时 间 特 征 拼 
接 。 这 使 我 们 能 够 通过 在 网 络 的 中 间 层 包含 拼接 来 支持 时 延 神经 网 络 (TDNN) 。 

nnet3 通过 配置 文件 定义 网 络 结构 。 在 nnet3 中 ， 我 们 有 一 个 通用 图 结构 而 不 是 一 
个 组 件 的 序列 。 一 个 nnet3 神经 网 络 (classNnet) 包括 以 下 两 个 部 分 。 

。 指定 组 件 的 列表 ， 没 有 特定 的 顺序 。 

。 一 个 图 结构 ， 其 中 包含 “黏合 剂 ”， 指 定 组 件 如 何 组 合 。 

图 可 以 按 名 称 访问 组 件 〈 这 样 可 以 实现 某 些 类 型 的 参数 共享 ) 。 这 “黏合 剂 ” 所 
做 的 部 分 工作 包括 允许 时 间 t， 可 以 依赖 时 间 六 1。 

以 下 给 出 组 件 和 图 的 一 个 示例 配置 文件 表示 。 


# 组 件 
component name=affinel type=NaturalGradientAffineComponent input-dim=48 


output-dim=65 

component name=relul type=RectifiedLinearComponent dim=65 

component name=affine2 type=NaturalGradientAffineComponent input-dim=65 
output-dim=115 

component name=logsoftmax type=LogSoftmaxComponent dim=115 

# 节 点 

input-node name=input dim=12 

component-node name=affinel node component=affinel input=Append (Offset (input, 
-1), Offset (input, 0), Offset(input, 1), Offset (input, 2)) 

component-node name=nonlinl] component=relul input=affinel node 

component-node name=affine2 component=affine2 input=nonlinl 

component-node name=output nonlin component=logsoftmax input=affine2 


output-node name=output input=output nonlin 


使 用 steps/nnet3/tdnn/make_configs.py 可 以 自动 生成 配置 文件 ， 生 成 的 脚本 看 起 来 
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如 下 : 
# 取 自 脚本 : /egs/tedlium/s5/local/nnet3/run tdnn.sh 


埋 创 建 用 于 nnet 初始 化 的 配置 文件 
Python steps/nnet3/tdnn/make configs.py \ 
--feat-dir data/${train set} hires \ 
--ivector-dir exp/nnet3/ivectors ${train set} \ 
Ce 
--relu-dim 500 \ 
—-splice-indexes "-1,0,1 -1,0,1,2 -3,0,3 -3,0,3 -3,0,3 -6,-3,0" \ 
--use-presoftmax-prior-scale true \ 
$dir/configs || exit 1; 


图 和 组 件 与 提供 的 输入 和 要 求 的 输出 , 一 起 用 来 构造 一 个 “计算 图 ”(Computation 
Graph) 类 。 构 造 计 算 图 是 编译 过 程 中 的 一 个 重要 阶段 。 计 算 图 是 一 个 非 循环 图 ， 其 中 
节点 对 应 向 量化 数值 。 非 循环 图 的 每 个 节点 将 由 神经 网 络 图 的 节点 《〈 即 网 络 的 层 ) 加 
上 一 些 额 外 的 索引 确定 。 索 引 包 括 : 时 间 上 索引 n， 加 上 一 个 额外 的 索引 x。 索引 n 
表明 最 小 批 内 的 样本 编号 (例如 对 于 512 个 样本 的 最 小 批 , 编号 从 0 到 511) 。 额 外 的 
索引 x 最 终 可 能 在 卷 积 方法 中 用 到 ， 但 通常 为 0。 
为 将 上 述 内 容 公式 化 ， 把 一 个 索引 (Index) 定义 成 一 个 元 组 (mn,tx)， 还 将 定义 一 个 
Cindex 元 组 node-index,Index)， 这 里 的 node-index (节点 索引 ) 是 对 应 到 神经 网 络 ( 即 
层 ) 中 的 一 个 节点 的 索引 。 我 们 实际 进行 的 计算 在 编译 阶段 表示 为 一 个 Cindexes 上 的 
有 向 无 环 图 。 
使 用 神经 网 络 〈 训 练 或 解码 ) 的 过 程 如 下 : 
e 用 户 提 供 计 算 请 求 ComputationRequest 说 明 可 用 的 是 什么 ， 输 入 的 什么 索引 
(例如 time-indexes) ， 要 求 的 是 什么 输出 。 

。 计算 请 求 ComputationRequest 连同 一 个 神经 网 络 一 起 作为 一 个 NnetComputation 
被 编译 成 一 系列 的 命令 。 

。 NnetComputation 进一步 做 速度 上 的 优化 (可 以 看 成 编译 上 的 优化 就 如 同 gce 
的 -O 选项 ) 。 
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e NnetComputer 类 负责 接收 矩阵 化 输入 ,评估 NnetComputation 并 提供 矩阵 化 输 
出 。 可 以 将 NnetComputer 理解 成 非常 有 限 的 运行 时 解释 语言 。 


7.4.2 ”基本 数据 结构 


正如 前 面 提 到 的 , 索引 (Index) 是 一 个 元 组 (mn,tx)， 其 中 是 minibatch 中 的 索引 ， 
1 是 指 时 间 索 引 ，x 是 一 个 供 将 来 使 用 的 占 位 符 索 引 。 在 实际 的 神经 网 络 计算 中 ，1024 
将 成 为 一 个 1024 维 矩 阵 的 列 数 ， 索 引 和 和 矩阵 的 行 之 间 存 在 一 对 一 的 对 应 关系 。nnet3 
的 框架 不 同 于 Theano 这 样 的 包 ，Theano 包 使 用 张 量 操作 ， 而 nnet3 通过 将 张 量 包装 成 
矩阵 来 有 效 操作 。 

如 果 训 练 非常 简单 的 前 馈 网 络 ， 索 引 可 能 只 在 n 维度 变化 ， 我 们 可 以 随意 地 将 了 
值 设置 为 0， 所 以 索引 看 起 来 像 这 样 : 


Do a a 
如 果 我 们 使 用 相同 类 型 的 网 络 解码 一 个 句子 ， 索 引 只 会 在 1 维度 不 同 ， 所 以 会 有 : 
rT 


对 应 于 和 矩阵 的 行 。 在 网 络 使 用 时 间 信 息 的 情况 下 ， 早 期 的 层 在 训练 时 需要 不 同 的 1 值 ， 
所 以 我 们 可 能 会 遇 到 nn 和 不 同 的 索引 列表 。 例 如 : 

oa 

索引 结构 体 Index 有 默认 的 排序 操作 ， 默 认 由 来 排序 ， 然 后 是 :， 最 后 是 x， 所 
以 通常 我 们 也 按 上 面 排 序 。 当 你 看 到 代码 打印 索引 的 向 量 时 ， 经 常 看 到 它们 是 以 紧凑 
的 形式 打印 ， 其 中 可 省 略 x 索引 如果 值 为 0， ， 而 上 的 范围 值 以 紧凑 形式 表示 ， 因 此 
上 述 向 量 能 够 写成 : 

[Ce en | 

Cindex(int32,Index), 其 中 int32 对 应 神经 网 络 中 的 一 个 节点 的 索引 。 正如 上 面 提 到 
的 ， 一 个 神经 网 络 由 一 组 命名 组 件 和 一 种 在 节点 及 节点 索引 上 的 图 组 成 。Cindex 在 编 
译 过 程 中 使 用 ， 它 们 对 应 于 “计算 图 ”的 节点 ， 计 算 图 对 应 于 一 个 特定 的 神经 网 络 计 
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算 。Cindex 和 特定 节点 的 输出 之 间 有 一 个 对 应 关系 ,通常 会 有 Cindex 和 编译 计算 中 和 矩 
阵 的 行 之 间 的 一 一 对 应 关系 。 前 面 提 到 ， 有 一 个 索引 和 和 矩阵 的 行 之 间 的 对 应 关系 ， 所 
不 同 的 是 ， 一 个 Cindex 除了 告知 矩阵 为 哪 一 行 ， 也 告诉 我 们 为 哪个 和 矩阵。 假设 图 中 有 
一 个 节点 “affine1 ”， 要 求 输出 维度 1000 和 节点 列表 编号 2， 则 Cindex (2,(0,0,0)) 相 当 
于 列 维度 1000 的 矩阵 的 某 一 行 ， 这 将 被 分 配 为 “affine1” 组 件 的 输出 。 

ComputationGraph 〈 计 算 图 ) 代表 一 个 Cindexes 上 的 有 向 图 ， 其 中 每 个 Cindex 都 
有 一 个 它 依 赖 的 其 他 Cindexes 的 列表 。 在 一 个 简单 的 前 馈 结构 中 ， 图 形 将 有 一 个 简单 
的 拓扑 ， 该 拓扑 有 多 个 线性 结构 ， 我 们 可 能 会 有 一 个 依赖 于 affine1(0,0,0) 的 nonlin1(0,0,0) 
和 依赖 于 affine1(1,0,0) 的 nonlin1(1,0,0) 等 。 在 ComputationGraph 和 其 他 地 方 ， 你 会 
到 称 为 cindex_ids 的 整数 ,每 一 个 cindex_id 都 是 一 系列 存储 在 图 中 的 Cindexes 的 索引 ， 
它 标识 一 个 特定 的 Cindex; cindex_ids 是 为 了 效率 起 见 ， 作 为 一 个 整数 比 Cindex 容易 
使 用 。 

ComputationRequest〈 计 算 请 求 ) 指定 一 组 命名 的 输入 和 输出 节点 ， 每 个 都 有 一 个 
关联 的 索引 列表 。 对 输入 节点 ， 这 个 列表 确定 哪些 索引 要 提供 给 计算 ， 对 输出 节点 ， 
它 确定 了 哪些 索引 要 求 被 计算 。 此 外 ，ComputationRequest 包含 各 种 标志 ， 如 关于 哪些 
输出 /输入 节点 有 需要 提供 或 被 要 求 反 向 微分 ， 以 及 模型 更 新 是 否 执行 的 信息 。 

举 一 个 例子 , 一 个 ComputationRequest 可 能 会 指定 一 个 输入 节点 , 命名 为 “输入 ”， 
由 索引 [(0,-1,0),(0,0,0),(0,1,0)] 提 供 ; 和 一 个 输出 节点 , 命名 为 “输出 ”， 与 索引 [(0,0,0)] 
被 要 求 。 在 网 络 需要 左边 和 右边 各 一 帧 上 下 文 的 时 候 ， 这 样 会 更 有 意义 。 其 实 我 们 通 
常 在 训练 中 , 只 要 求 这 样 的 独立 输出 帧 ; 在 训练 中 我 们 通常 会 有 多 个 minibatch 的 例子 ， 
所 以 索引 的 维度 也 有 所 不 同 。 

计算 的 目标 函数 及 其 输出 的 导数 不 是 核心 神经 网 络 框 架 的 一 部 分 ， 我 们 把 它 交 给 
用 户 。 一 般 神经 网 络 可 能 有 多 个 输入 和 输出 节点 ， 这 可 能 在 多 任务 学 习 或 处 理 多 个 不 
同类 型 的 输入 数据 的 框架 中 是 有 用 的 〈 如 多 视点 学 习 ) 。 

NnetComputation 代表 已 经 从 一 个 Nnet 和 ComputationRequest 编译 出 特定 的 计算 。 
它 包 含 一 个 命令 序列 ， 每 一 个 都 可 能 是 一 个 传播 操作 ， 一 个 矩阵 复制 或 添加 操作 ， 各 
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种 其 他 简单 矩阵 命令 ， 例 如 复制 矩阵 特定 的 行 从 一 个 矩阵 到 另 一 个 矩阵 ， 反 向 传播 操 
作 、 和 矩阵 大 小 命令 等 。 计 算 作用 的 变量 是 矩阵 的 列表 ， 以 及 可 能 占据 一 个 矩阵 的 某 些 
行 或 列 的 范围 的 子 和 矩阵 。 计 算 还 包含 各 种 索引 的 集合 (整数 数组 等 )， 这 有 时 需要 被 
作为 参数 参与 特定 的 矩阵 运算 。 

NnetComputer 对 象 负责 实际 执行 NnetComputation。NnetComputer 中 的 代码 实际 上 很 
简单 (主要 是 一 个 带 switch 语句 的 循环 ) ， 因 为 大 多 数 的 复杂 性 发 生 在 NnetComputation 
的 编译 和 优化 阶段 。 

前 面 的 部 分 概述 了 一 个 框架 是 如 何 结合 在 一 起 的 。 在 这 部 分 ， 我 们 将 更 详细 地 介 
绍 神经 网 络 本 身 的 结构 ， 以 及 我 们 如 何 把 组 件 结合 在 一 起 和 表示 对 从 时 间 !- 1 开始 的 
输入 的 依赖 关系 。 

nnet3 组 件 (Component) 是 一 个 具有 正 向 传播 和 反 向 传播 功能 的 对 象 。 它 可 能 包含 
参数 ， 也 可 能 只 实现 一 个 固定 的 非 线 性 ， 例 如 Sigmoid 组 件 。 组 件 接口 最 重要 的 部 分 
代码 如 下 : 


class Component { 

public: 

Virtual voidPropagate (const ComponentPrecomputedIndexes *indexes, 
const CuMatrixBase<BaseFloat> &in, 
CuMatrixBase<BaseFloat> *out) const = 0; 

Virtual voidBackprop (const std::string &debug info, 

const ComponentPrecomputedIndexes *indexes, 
constCuMatrixBase<BaseFloat> &in value, 

const CuMatrixBase<BaseFloat> &out value, 

const CuMatrixBase<BaseFloat> &out deriv, 

Component *to update，// 可 能 为 NULL; 可 能 与 this 相同 或 不 同 
CuMatrixBase<BaseFloat> *in deriv) const = 0; 


1; 
这 里 , 请 忽略 ComponentPrecomputedIndexes*indexs 参数 。 某 个 特定 组 件 有 输入 维 
度 和 输出 维度 ， 这 个 组 件 通常 会 “ 逐 行 ”转换 数据 ， 即 Propagate() 方 法 的 输入 和 输出 
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矩阵 有 相同 数量 的 行 ， 输 入 的 每 一 行 被 处 理 后 生成 相应 的 输出 行 。 就 索引 而 言 ， 这 意 
味 着 对 应 输入 和 输出 的 每 个 元 素 的 索引 都 是 相同 的 。 在 Backprop0 方 法 中 也 存在 类 似 
的 逻辑 。 

一 个 组 件 有 一 个 虚 函 数 Properties0, 它 会 返回 包含 不 同 二 进 制 标志 位 的 比特 掩 码 值 ， 
这 些 二 进 制 标志 位 是 定义 在 ComponentProperties 的 枚 举 变量 。 


class Component { 
virtual int32Properties() const = 0; 


] 7 

这 些 属性 确定 组 件 的 各 种 特征 ， 如 是 否 包 含 可 更 新 的 参数 (kUpdatableComponent) 、 
其 传播 功能 是 否 支持 原 位 操作 〈kPropagateInPlace) 等 。 其 中 很 多 是 优化 代码 所 需 的 ， 
这 样 就 可 以 知道 可 应 用 哪些 优化 。 

你 还 会 注意 到 一 个 kSimpleComponent 枚 举 值 。 如 果 设 置 该 枚 举 值 ， 那 么 这 个 组 件 
就 是 “简单 ”的 ， 这 意味 着 它 如 同上 面 的 定义 一 样 逐 行 转换 数据 。 复 杂 组 件 允 许 输入 
和 输出 用 不 同 数 量 的 行 ， 而 且 可 能 需要 知道 在 输入 和 输出 中 使 用 了 什么 索引 。 

Propagate() 函 数 和 Backprop0 函 数 的 const ComponentPrecomputedIndexes 参数 只 是 
非 简单 组 件 使 用 的 。 与 nnet2 框架 不 同 ， 组 件 不 负责 实现 诸如 跨 帧 拼接 等 ， 相反 ， 我 们 
可 以 使 用 描述 符 (Descriptor) 来 处 理 跨 帧 拼接 ， 有 具体 下 面 将 会 解释 。 

我 们 先前 解释 到 ， 一 个 神经 网 络 是 命名 组 件 和 “网 络 节点 ”上 的 图 的 集合 ， 但 还 
没有 解释 什么 是 “网 络 节点 ”。“ 网 络 节点 ” (NetworkNode) 实际 上 是 一 个 结构 体 ， 
它 有 4 个 不 同 的 类 别 。 这 4 个 类 别 由 NodeType 枚 举 定义 : 

enum NodeType { kInput, kDescriptor, kComponent,kDimRange }; 

其 中 3 个 较 重 要 的 类 别 是 kInput、kDescriptor 和 kComponent， 而 kDimRange 是 用 来 支 
持 将 节点 的 输出 分 散 到 各 个 部 分 。kComponent 节点 是 网 络 的 骨干 ， 描 述 符 kDescriptor 是 
“黏合 剂 ”将 前 者 组 合 在 一 起 ， 支 持 诸如 帧 拼接 和 循环 。kInput 节点 非常 简单 ， 只 需 
要 提供 一 个 地 方 来 转 储 提供 的 输入 和 声明 输入 的 维度 。 你 也 许 会 很 惊讶 ,没有 kOutput 
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节点 。 原因 是 , 输出 节点 其 实 就 只 是 描述 符 。 有 一 个 规则 ， 每 个 kComponent 类 型 节点 
必须 通过 它 的 kDescriptor 类 型 的 “拥有 ”节点 出 现在 节点 列表 前 面 ， 这 条 规则 使 得 图 
形 编译 变 得 更 加 容易 。 因 此 ，kDescriptor 类 型 的 节点 如 果 不 是 有 kComponent 节点 紧 随 
其 后 , 就 是 一 个 输出 节点 。 为 方便 起 见 ，Nnet 类 有 方法 OutputNode(int32 node_index) 
和 IsComponentInputNode(int32 node_index) 可 以 说 明 这 些 区 别 。 

接 下 来 ， 我 们 将 更 加 深入 神经 网 络 节点 的 细节 。 

神经 网 络 可 以 从 配置 文件 创建 。 在 这 里 ， 用 一 个 非常 简单 的 例子 来 说 明 配 置 文件 是 
怎样 与 描述 符 关联 一 一 这 个 网 络 有 一 个 隐藏 层 ， 并 且 在 第 一 个 节点 的 时 间 轴 上 做 拼接 。 

# 首 先是 组 件 


component name=affinel type=NaturalGradientAffineComponent input-dim=48 


output-dim=65 

component name=relul type=RectifiedLinearComponent dim=65 

component name=affine2 type=NaturalGradientAffineComponent input-dim=65 
output-dim=115 

component name=logsoftmax type=LogSoftmaxComponent dim=115 

# 接 下 来 是 节点 

input-node name=input dim=12 

component-node name=affinel node component=affinel input=Append (Offset (input, 
-1), Offset (input, 0), Offset (input, 1), Offset (input, 2)) 

component-node name=nonlinl component=relul input=affinel node 

component-node name=affine2 component=affine2 input=nonlinl 

component-node name=output nonlin component=logsoftmax input=affine2 


output-node name=output input=output nonlin 

在 配置 文件 中 没有 提 到 描述 符 ( 如 无 “descriptor-node”) ， 而 是 将 “输入 ”字段 
作为 描述 符 ， 如 “输入 = Append(…)”。 配 置 文件 中 的 每 个 component-node 被 扩展 到 两 
个 节点 : 一 个 为 kComponent 类 型 节点 ， 另 一 个 为 紧 挨 着 它 前 面 的 “输入 ”字段 所 定义 
的 kDescriptor 类 型 节点 。 

上 面 的 配置 文件 没有 给 出 一 个 dim-range 节点 的 例子 。 这 个 例子 将 从 65 个 维度 的 
组 件 affinel 中 取得 前 50 个 维度 ，dim-range 节点 的 基本 格式 如 下 : 


ss 
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dim-range-node name=dim-range-nodel input-node=affinel node dim-offset=0 
dim=50 


配置 文件 中 的 描述 符 。 描 述 符 是 一 种 非常 有 限 的 表达 式 ， 能 够 访问 定义 在 图 中 其 
他 节点 的 数值 。 在 本 节 中 ， 我 们 从 其 配置 文件 格式 的 角度 来 描述 Descriptors。 下 面 我 
们 将 解释 描述 符 如 何 呈 现在 代码 中 。 

最 简单 的 描述 符 (基本 情况 ) 只 有 一 个 节点 名 , 例如 “affinel ”( 只 允许 kComponent 
或 kInput 类 型 的 节点 出 现在 这 里 ， 为 了 简化 实现 ) 。 下 面 我 们 将 列 出 可 能 出 现在 描述 
符 中 的 一 些 类 型 的 表达 式 ， 但 请 记 住 ， 这 种 描述 将 会 给 你 一 个 描述 符 的 大 概 描述 ， 比 
实际 情况 更 一 般 化 ， 实 际 上 这 些 可 能 只 出 现在 一 个 特定 的 层次 结构 。 

# 说 愤 ， 这 是 一 种 过 度 生成 描述 符 的 简化 


<descriptor> ::= <node-name> ;; kInput 或 kComponent 类 型 的 节点 名 称 

<descriptor> ::= Append(<descriptor>, <descriptor> [, <descriptor> ... ] ) 

<descriptor> ::= Sum(<descriptor>, <descriptor>) 

<descriptor> ::= Const(<value>, <dimension>) ;; 如 Const(1.0，512) 

<descriptor> ::= Scale(<scale>, <descriptor>) ;; 如 Scale(-1.0, tdnn2) 

77 例如 ,故障 转移 或 IfDefined 可 能 对 RNN 中 的 时 间 七 = -1 有 用 

<descriptor> ::= Failover(<descriptor>, <descriptor>) 

<descriptor> ::= IfDefined(<descriptor>) 

<descriptor> ::= Offset(<descriptor>, <t-offset> [, <x-offset> ] ) 

77 偏 移 量 是 整数 

77 Switch(...) 间 在 用 于 发 条 RNN 或 类 似 方案 

<descriptor> ::= Switch(<descriptor>, <descriptor> [, <descriptor> ...]) 

<descriptor> ::= Round(<descriptor>, <t-modulus>) ;; <t-modulus> is an 
integer 


77 ReplaceIndex 用 一 个 固定 的 整数 <value> 蔡 换 请 求索 引 中 的 一 些 < 变量 名 > (或 x) 

?; 例如 ,在 整合 iVectors 时 可 能 会 有 用 ; iVector 总 是 有 时 间 索 引 上 = 0 

<descriptor> ::= ReplaceIndex (<descriptor>, <variable-name>, <value>) 

读 取 描 述 符 的 代码 尝试 以 尽 可 能 通用 的 方式 标准 化 这 些 描述 符 ， 以 便 几 乎 所 有 上 
述 语 法 都 可 以 读 取 并 转换 为 内 部 表示 。 


777 <descriptor> == class Descriptor 


<descriptor> ::= Append(<sum-descriptor>[, <sum-descriptor> ... ] ) 
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<descriptor> ::= <sum-descriptor> ;; 相当 于 带 有 一 个 参数 的 Rppend () 
777 <sum-descriptor> == class SumDescriptor 

<sum-descriptor> ::= Sum(<sum-descriptor>, <sum-descriptor>) 
<sum-descriptor> ::= Failover(<sum-descriptor>, <sum-descriptor>) 
<sum-descriptor> ::= IfDefined(<sum-descriptor>) 
<sum-descriptor> ::= Const (<value>, <dimension>) 
<sum-descriptor> ::= <fwd-descriptor> 

777 <fwd-descriptor> == class ForwardingDescriptor 


;; <t-offset> 和 <x-offset> 是 整数 


<fwd-descriptor> ::= Offset (<fwd-descriptor>, <t-offset> [, <x-offset> ] ) 
<fwd-descriptor> ::= Switch(<fwd-descriptor>, <fwd-descriptor> [, <fwd- 
descriptor> ...]) 


77 <t-modulus> 是 一 个 整数 


<fwd-descriptor> ::= Round(<fwd-descriptor>，<t-modulus>) 

77 <variable-name> 是 七 或 X7 <value> 是 一 个 整数 

<fwd-descriptor> ::= ReplaceIndex(<fwd-descriptor>， <variable-name>, 
<value>) 

;; <node-name> 是 kInput 或 kComponent 类 型 的 节点 的 名 称 

<fwd-descriptor> ::= Scale(<scale>, <node-name>) 

<fwd-descriptor> ::= <node-name> 


描述 符 的 设计 应 该 足够 严格 ， 使 产生 的 表达 式 相当 容易 被 计算 。 当 把 组 件 连接 到 
一 起 时 ， 它 们 只 应 该 执行 繁重 的 操作 ， 而 任何 更 有 趣 或 非 线 性 的 操作 都 应 该 在 组 件 中 
执行 。 

注意 : 如 果 有 必要 在 未 知 长 度 的 各 种 索引 上 做 累加 或 求 平 均 (例如 一 个 文件 中 的 
所 有 + 值 ) ， 我 们 倾向 于 在 一 个 组 件 内 操作 一 一 是 使 用 一 个 复杂 的 组 件 ， 而 不 是 使 用 

在 代码 中 从 下 往 上 描述 描述 符 。 基 类 ForwardingDescriptor 处 理 Descriptor 类 型 ， 
该 类 型 将 只 访问 某 个 单一 数值 ， 没 有 任何 Append (…) 或 Sum (…) 等 的 表达 。 在 此 接口 
ph 较 重 要 的 方法 是 MapToInputO0， 实 现 格式 如 下 : 


class ForwardingDescriptor { 


nn 


public: 
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Virtual Cindex MapToInput (const Index &output) const = 0; 


} 

给 定 一 个 特定 要 求 的 mdex， 该 函数 将 返回 一 个 对 应 于 输入 值 的 Cindex (引用 其 他 节 
点 ) 。 注 意 ， 该 函数 的 参数 是 一 个 mdex， 而 不 是 一 个 Cindex， 因 为 这 个 数值 是 不 会 依赖 
于 自身 描述 符 对 应 结 点 的 节点 索引 。 有 几 个 ForwardingDescriptor 的 派生 类 ， 包 括 Simple 
ForwardingDescriptor〈 基 本 情况 下 ， 仅 持 有 一 个 节点 索引 ) 、OffsetForwardingDescriptor 
和 ReplaceIndexForwardingDescriptor 等 。 

沿 层次 结构 向 上 一 个 级 别 的 是 类 SumDescriptor, 用 于 支持 表达 式 Sum (<desc>， 
<desc>)、Failover (<desc>，<desc>) 和 ItDefined(<desc>)。 很 清楚 ， 某 个 给 定 索引 到 
SumDescriptormay 的 请 求 有 可 能 会 返回 不 同 的 Cindexes， 所 以 用 于 ForwardingDescriptor 
的 接口 行 不 通 。 我 们 还 需要 支持 可 选 的 依赖 关系 ， 实 现代 码 如 下 : 

class SumDescriptor { 


public: 


Virtual void GetDependencies (const Index &ind, 


std: :Vector<Cindex> *dependencies) const = 0; 


] 

方法 GetDependencies() 将 所 有 可 能 参与 计算 Index 数值 的 Cindexes 附加 到 
dependencies 参数 。 接 下来， 我们 会 担心 当 请 求 的 输入 可 能 是 不 可 计算 (例如 ， 因 为 有 
限 的 输入 数据 或 边缘 效应 ) 的 时 候 , 会 发 生 什么 。 函数 ISComputable() 将 进行 如 下 处 理 : 


class SumDescriptor { 
public: 


Virtual bool IsComputable (const Index &ingd, 


const Cindexset gcindex set, 
std: :vector<Cindex> *input terms) const = 0; 
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这 里 ，CindexSet 对 象 表示 一 组 Cindexes 的 集合 ， 在 这 种 情况 下 代表 “所 有 我 们 
知道 是 可 计算 的 Cindexes 的 集合 ”。 如 果 这 个 索引 的 描述 符 是 可 计算 的 ， 那 么 这 个 方 
法 将 返回 tue。 例 如 ， 表 达 式 Sum (X,Y 了) 只 会 当 X 和 YY 是 可 计算 的 ， 才 可 计算 。 如 果 
这 个 方法 返回 tue， 那 么 它 还 会 将 input_terms 附加 到 实际 出 现在 评估 表达 式 中 的 输入 
Cindexes。 例 如 ， 在 Failover(X,Y) 形 式 的 表达 式 中 ， 如 果 X 是 可 计算 的 ， 那 么 只 会 附 
加 和 到 input terms， 不 会 附加 Y。 

类 Descriptor 是 层次 结构 的 顶端 。 它 可 以 被 认为 是 一 个 SumDescriptors 的 向 量 , 注意 ， 
这 个 向 量 长 度 通常 为 1。Descriptor 的 功能 是 附加 信息 (如 附加 向 量 )， 负 责 Append(…) 的 
语法 。 它 有 与 SumDescriptor 相同 接口 的 方法 GetDependencies0 和 IsComputable()， 以 及 


人 允许 月 


日 户 访问 其 向 量 中 的 各 个 Sum 描述 符 的 方法 NumParts() 和 Part(int32 n)。 
下 面 详细 描述 神经 网 络 节点 。 如 上 所 述 ， 节 点 有 4 种 类 型 。 这 4 种 类 型 由 枚 举 器 


定义 如 下 : 

enum NodeType { kInput, kDescriptor, kComponent,KkDimRange }; 

实际 的 NetworkNode 是 一 个 结构 体 。 为 了 避免 指针 的 麻烦 ， 又 因为 C++ 不 允许 联 
合体 内 包含 类 ， 所 以 我 们 有 一 个 略微 简化 的 结构 布局 。 


struct NetworkNode { 


NodeType node type; 
// 描 述 符 仅 适 用 于 kKDescriptor 类 型 的 节点 
Descriptor descriptor; 
union { 
// 对 于 kComponent, 这 个 值 是 进入 Nnet: :components_ 的 索引 
int32 component index; 
// 对 于 kDimRange, 这 个 值 是 输入 节点 的 节点 索引 
int32 node index; 
Fas 
// 对 于 kInput, 这 个 值 是 输入 特征 的 维度 
// 对 于 kDimRange, 这 个 值 是 输出 的 维度 ( 即 范围 的 长 度 ) 
int32 dim; 
// 对 于 kDimRange, 这 个 值 是 进入 输入 组 件 的 特征 的 偏 移 量 维度 
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int32 dim offset; 
] 7 
不 同类 型 的 节点 和 它们 实际 使 用 的 成 员 总 结 如 下 。 
e kmpnut 节点 只 使 用 dim。 
@ ”kDescriptor 节点 只 使 用 descriptor。 
ee kComponent 节点 只 使 用 component index, 这 索引 了 Nnet 的 components 数组 。 
e kDimRange 节点 只 使 用 node index、dim 和 dim _offset。 
下 面 我 们 将 给 出 更 多 类 Nnet 本 身 的 细节 ， 用 于 存储 整个 神经 网 络 。 较 简单 的 解释 
方法 是 只 列 出 私有 数据 成 员 ， 实 现代 码 如 下 : 
Class Nnet { 
public: 


private: 

std: :vector<std: :string> component names ; 

std::vector<Component*> components ; 

std: :Vector<std: :string> node names ; 

std: :vector<NetworkNode> nodes ; 
] 7 
上 述 代 码 中 ，component names 应 该 有 和 components 相同 的 大 小 ，node_names 
应 该 有 nodes 相同 的 大 小 。Nnet 类 的 实例 将 名 称 与 组 件 和 节点 关联 起 来 。 注 意 ， 我 们 
自动 分 配 名 称 到 kDescriptor 类 型 的 节点 ， 通 过 添加 _input 到 对 应 组 件 节点 的 名 称 ， 这 
些 节 点 会 先 于 相应 的 kKComponent 类 型 的 节点 。 这 些 kDescriptor 节点 的 名 称 不 出 现在 
神经 网 络 的 配置 文件 表示 中 。 

另 一 个 重要 的 数据 类 型 是 结构 体 NnetComputation。 这 代表 了 一 个 编译 好 的 神经 网 

络 计算 ， 包 含 一 系列 的 命令 和 其 他 必要 的 解释 信息 。 在 内 部 它 定义 了 许多 类 型 ， 包 括 
如 下 的 枚 举 值 。 


enum CommandType { 
KkAllocMatrixUndefined, kAllocMatrixZzeroed, kDeallocMatrix, kPropagate, 
ksStorestats, kBackprop, kMatrixCopy, kMatrixAdd, KkCopyRows, kaddRows， 
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这 里 特别 指出 kPropagate、kBackprop 和 kMatrixCopy 作为 命令 的 自 解释 例子 。 有 
一 个 结构 体 Command 代表 一 个 命令 及 其 参数 , 大 部 分 的 参数 都 被 索引 到 矩阵 和 组 件 的 
列表 。 


还 有 几 个 结构 体 类 型 定义 ， 用 于 存储 矩阵 和 子 矩阵 的 大 小 信息 。 子 矩阵 是 一 个 矩 
阵 限 制 了 范围 的 行 和 列 ， 可 能 像 MATLAB 语法 : some_matrix(1:10,1:20)。 


结构 体 NnetComputation 的 数据 成 员 如 下 : 
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std: :Vector<SubMatrixInfo> submatrices; 

// 用 于 kRddqRows、kRddToRows 、kCopyRows、KkCopyYToRows, 包 含 行 索引 

std: :vector<std: :Vector<int32> > indexes; 

// 用 于 kKAddRowsMulti、KkAddToRowsMulti、kCopyRowsMulti、kCopyToRowsMulti 
// 包 含 ( 子 和 矩阵 索引 , 行 索引 ) 对 ,或 (-1, -1) ,这 意味 着 对 该 行 不 做 任何 事情 

std: :vector<std: :vector<std: :pair<int32,int32> > > indexes multi; 
// 在 kAddRowRanges 命令 中 使 用 的 索引 ,包含 (start-index,end-index) 对 

std: :Vector<std: :vector<std: :pair<int32,int32> > > indexes ranges; 
// 有 关 神 经 网 络 的 输入 和 输出 值 及 衍生 物 在 哪里 生活 的 信息 

unordered map<int32, std::pair<int32, int32> > input output info; 
bool need model derivative; 

// 以 下 仅 用 于 非 简单 组 件 

std: :Vector<ComponentPrecomputedIndexes*> component precomputed indexes; 


yn 
称 字 中 带 “ 索 引 ” 的 向 量 是 如 CopyRows、AddRows 等 的 矩阵 函数 参数 ， 它 们 需 
要 索引 向 量 作为 输入 《〈 在 执行 之 前 ， 将 复制 这 些 向 量 到 GPU) 。 


7.5 


编译 Kaldi 


由 Makefile 定义 的 目标 如 下 。 


"make depend" 将 重建 依赖 关系 。 在 构建 工具 包 之 前 ， 运 行 它 是 个 好 主意 。 如 
果 .depend 文件 过 期 (因为 还 没有 运行 "make depend") ， 则 可 能 会 看 到 如 下 所 示 
的 错误 。 


make [1] : *** No rule to make target '/usr/include/foo/bar', needed by 'baz.o'. Stop. 


"make all" (或 "make") 将 编译 所 有 代码 ， 包 括 测试 代码 。 

"make test" 将 运行 测试 代码 (用 于 确保 构建 能 够 在 用 户 系统 上 运行 ， 并 且 用 户 
没有 引入 错误 ) 。 

"make clean" 将 删除 所 有 编译 的 二 进 制 文件 ，.o( 对 象 ) 文件 和 .a( 存 档 ) 文件 。 
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e "make valgrind" 将 运行 valgrind 下 的 测试 程序 来 检查 内 存 泄漏 。 
e "make cudavalgrind" 将 运行 测试 程序 (在 cudamatrix 中 ) ， 以 检查 带 有 GPU 卡 
和 安装 了 CUDA 驱动 的 操作 系统 内 存 泄 漏 。 

编译 后 的 二 进 制 文件 在 哪里 ? Makefile 默认 不 会 将 编译 后 的 二 进 制 文件 放 在 一 个 特 
殊 的 地 方 ， 只 是 将 它们 留 在 相应 代码 所 在 的 目录 中 。 二 进 制 文件 存在 于 bin/、gmmbin/、 
featbin/、fstbin/ 和 lm/ 目 录 中 ， 它 们 都 是 src/ 的 子 目 录 。 将 来 可 能 会 指定 一 个 地 方 放置 所 
有 的 二 进 制 文件 。 

Makefile 如 何 工 作 。src/Makefile 文件 只 是 调用 所 有 源 子 目录 (src/base、src/matrix 等 ) 
中 的 Makefile。 这 些 目录 有 自己 的 Makefile， 所 有 这 些 都 有 共同 的 结构 。 它 们 都 包括 以 
下 行 : 

include ../kaldi.mk 

这 就 像 C 语言 中 的 #include 行 。 在 阅读 kaldimk 时 ， 请 记 住 它 将 从 实际 所 在 位 置 
下 面 的 一 个 目录 中 调用 ( 它 位 于 src/ 目 录 中 ) 。kaldimk 文件 的 示例 如 下 : 


ATLASLIBS = /usr/local/lib/liblapack.a /usr/local/lib/libcblas.a \ 
/usr/local/lib/libatlas.a /usr/local/lib/1libf77blas.a 
CXXFLAGS = -msse -Wall -I.. \ 
-DKALDI DOUBLEPRECISION=0 -msse2 -DHAVE POSIX MEMALIGN \ 
-DHAVE EXECINFO H=1 -rdynamic -DHAVE CXXABI H \ 
-DHAVE ATLAS -I ../../tools/ATLAS/include \ 
-I ../../tools/openfst/include \ 
-g -00 -DKALDI PARANOID 
LDFLAGS = -rdynamic 
LDLIBS = ../../tools/openfst/lib/libfst.a -ldl $(ATLASLIBS) -lm 
Ce = gt 
CE 
AR = ar 
RS = as 
RANLIB = ranlib 


上 述 这 个 文件 是 针对 Linux 操作 系统 的 ,我 们 删除 了 一 些 不 重要 的 与 valgrind 相关 
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的 规则 。 
因此 ，kaldi.mk 负责 设置 包含 路 径 、 定 义 预 处 理 器 变量 、 设 置 编译 选项 和 链接 库 等 。 
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卷 积 神经 网 络 在 声学 模型 上 的 应 用 源 于 近 些 年 来 其 在 图 像 处 理 上 压倒 性 的 成 功 。 
最 初 应 用 于 声学 模型 的 卷 积 神经 网 络 只 有 一 层 或 两 层 , 用 于 特征 的 提取 , 再 加 上 LSTM 
和 标准 的 前 向 网 络 ， 代 表 的 例子 是 CNN-LSTM-DNN (CLDNN) 。 由 于 极其 深 的 卷 积 
神经 网 络 〈 诸 如 VGGNet 和 ResNet) 在 图 像 识别 上 的 成 功 ， 这 些 模型 也 被 引入 到 声学 
模型 ，IBM 和 微软 的 学 者 还 在 此 之 上 提出 了 一 系列 其 他 变形 。 这 些 卷 积 神经 网 络 模型 
在 SwitchBoard 这 个 标准 语音 识别 任务 上 不 断 刷 新 最 低 错误 率 的 纪录 。 


7.7 ”Dropout 解决 过 度 拟 合 问题 


过 度 拟 合 是 指 模型 过 分 地 拟 合 训练 样本 ， 但 对 测试 样本 预测 准确 率 不 高 。 过 度 拟 
合 导致 模型 泛 化 能 力 差 。 Dropout 是 一 种 通过 暂时 不 使 用 一 些 节点 来 解决 神经 网 络 过 度 
拟 合 问题 的 方法 。 

将 Dropout 视 为 一 种 集成 学 习 形式 是 有 帮助 的 。 在 集成 学 习 中 ， 我 们 采用 了 一 些 
“ 较 弱 ”的 分 类 器 ， 分 别 训练 它们 ， 然 后 在 测试 时 通过 平均 所 有 集合 成 员 的 响应 来 使 用 
它们 。 由 于 每 个 分 类 器 都 经 过 单独 训练 ， 因 此 它 学 会 了 数据 的 不 同 “ 方 面 ”， 并 且 它 
们 的 错误 也 不 同 。 将 它们 组 合 起 来 有 助 于 产生 更 强 的 分 级 器 ， 不 易 过 度 拟 合 。 随 机 森 
林 (Random Forest) 或 GBT (Gradient-Boosted Tree) 是 典型 的 集成 分 类 器 。 

集成 学 习 的 一 个 变 体 是 装 袋 法 ， 其 中 集成 分 类 器 中 的 每 个 成 员 用 输入 数据 的 不 同 
子 样本 训练 ， 因此 仅 学 习 了 整个 可 能 的 输入 特征 空间 的 子 集 。Dropout 可 以 被 视 为 装 袋 
法 的 极端 版 本 。 在 小 批量 的 每 个 训练 步 又 中 ，Dropout 程序 创建 不 同 的 网 络 (通过 随机 


“232» 


第 7 章 深度 学 习 


移 除 一 些 单元 ) ， 其 像 往常 一 样 使 用 反 向 传播 进行 训练 。 从 概念 上 讲 ， 整 个 过 程 类 似 

于 使 用 许多 不 同 网 络 的 集合 (每 步 一 个 ) ， 每 个 网 络 用 单个 样本 训练 〈 即 极端 装 袋 ) 。 
在 测试 阶段 ， 使 用 整个 网 络 ， 但 权重 按 比 例 缩小 。 在 数学 上 ， 这 近似 于 整体 平均 

〈 使 用 几何 平均 值 作 为 平均 值 ) 。 

使 用 给 layers.dropout 实现 Dropout 的 代码 如 下 : 


Ss 
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optimizer = tf.train.AdamOoptimizer (learning rate=learning rate) 
train op = optimizer.minimize (loss op, 
global step=tf.train.get global step()) 

塌 评 估 模 型 的 准确 性 
acc op = tf.metrics.accuracy (labels=labels, predictions=pred _ classes) 
#Estimators 需要 返回 了 stimatorSpec, 然后 用 它 指定 训练 、 评 估 等 的 不 同 操作 
estim specs = tf.estimator.EstimatorSpec( 

mode=mode, 

predictions=pred classes, 

1oss=1oss_op， 

train op=train op， 

eval metric ops={ 'accuracy': acc op}) 
return estim specs 

# 构 建 Estimator 


model = tf.estimator.Estimator (model fn) 


# 定 义 用 于 训练 的 输入 函数 

input fn = tf.estimator.inputs.numpy input fn( 
x={"'images': mnist.train.images}, y=mnist.train.labels, 
batch size=batch size, num epochs=None, shuffle=True) 

#Train the Model 

model .train (input fn, steps=num steps) 


# 评 估 模 型 


# 定 义 用 于 评估 的 输入 函数 

input fn = tf.estimator.inputs.numpy input fn( 
x={"'images': mnist.test.images}, y=mnist.test.]labels, 
batch size=batch size, shuffle=False) 


# 使 用 Estimator 的 evaluate 方法 
e = model.evaluate (input fn) 
print ("Testing Accuracy:", el[l'accuracy']) 


7.8 ”和 矩阵 运算 


LAPACK (Linear Algebra PACKage ) 是 Fortran 语言 开发 的 一 个 线性 代数 库 . BLAS 
(Basic Linear Algebra Subprograms) 是 一 个 Fortran 90 库 ， 其 中 包含 用 于 向 量 -向 量 运 
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算 、 称 阵 -向 量 运 算 和 矩阵 -矩阵 运算 的 基本 线性 代数 子 程序 。CLAPACK 是 BLAS 和 
LAPACK 翻译 成 C 语言 的 版 本 。 

Kaldi 中 的 矩阵 代码 主要 是 线性 代数 库 BLAS 和 LAPACK 上 的 一 个 包装 。 把 代码 
设计 成 为 尽 可 能 灵活 地 使 用 它 可 使 用 的 库 。 它 支持 以 下 4 种 选择 。 

。 ATLAS 是 BLAS 的 一 个 实现 加 上 LAPACK 的 一 个 子 集 。 

e BLAS 加 上 CLAPACK 的 一 些 实现 。 

。 英特尔 的 MKL 提供 的 BLAS 和 LAPACK。 

e OpenBLAS (http://www.openblas.net) 提供 BLAS 和 LAPACK。 

程序 代码 必须 知道 正在 使 用 这 4 个 选项 中 的 哪 一 个 ， 因 为 虽然 原则 上 BLAS 和 
LAPACK 是 标准 化 的 ， 但 是 在 接口 中 有 一 些 差 异 。Kaldi 代码 只 需要 定义 4 个 字符 串 
HAVE ATLAS、HAVE CLAPACK、HAVE_OPENBLAS 或 HAVE_MKL 中 的 一 个 ( 例 
如 ， 使 用 -DHAVE_ATLAS 作为 编译 器 的 选项 ) ， 然 后 它 必 须 与 适当 的 库 链接 。 

最 直接 涉及 包含 外 部 库 和 设置 适当 的 typedef 并 定义 的 代码 位 于 kaldi-blas.h 中 。 但 
是 ， 和 矩阵 代码 的 其 余部 分 并 不 完全 与 这 些 问 题 无 关 ， 因 为 ATLAS 和 CLAPACK 版 本 
的 更 高 级 别 例 程 的 调用 方式 不 同 ， 所 以 我 们 有 很 多 "上 fdef HAVE_ATLAS" 指 令 等 。 另 
外 ， 一 些 例 程 在 ATLAS 中 甚至 不 可 用 ， 所 以 我 们 必须 自己 实现 它们 。 

src 目录 中 的 configure 脚本 负责 设置 Kaldi 以 使 用 这 些 库 。 它 通过 在 src 目录 中 创建 文 
件 kaldimk 来 完成 此 操作 ，kaldimk 为 编译 器 提供 了 相应 的 标志 。 例 如 : 


ATLASINC = /home/soft/kaldi/tools/ATLAS/include 
ATLASLIBS = /usr/1ib64/atlas/libsatlas.so.3 /usr/lib64/atlas/libtatlas.so. 
3 -Wl,--rpath=/usr/1ib64/atlas 


如 果 不 带 任何 参数 调用 configure 脚本 ， 将 使 用 可 在 系统 中 “正常 ”位 置 找到 的 任 
何 ATLAS 安装 ， 但 它 是 可 配置 的 。 例 如 ， 通 过 atlas-root 参数 指定 ATLAS 的 路 径 : 
./configure --atlas-root=../tools/ATLAS/build 


在 Linux 操作 系统 下 编译 ATLAS: 


make srcdir=< 选 择 的 目录 > 
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如 果 没 有 给 出 srcdir，Makefile 将 在 math-atlas 目录 中 创建 一 个 TEST 目录 ( 即 
srcdir 的 值 默认 为 /TEST) 。 然 后 切换 目录 到 srcdir, 并 执行 make 命令 来 构建 ATLAS 
树 。 在 ATLAS 树 构建 后 , Latltar.sh 将 从 make 命令 生成 的 ATLAS 源 树 中 构建 标准 .tar 
文件 。 
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在 语音 识别 中 ， 使 用 语言 模型 解码 识别 结果 。 本 章 先 讲解 概率 语言 模型 ， 然 后 讲 
解 语言 模型 工具 包 一 一 KenLM。 


8.1 概率 语言 模型 


识别 发 音 “ 我 银行 借 的 已 经 还 了 ”。 假设 对 于 输入 语音 序列 C“ 已 经 还 了 ”， 有 
以 下 两 种 识别 可 能 。 

S51: 已经/ 还 / 了 / 

S2: 已 经 / 黄 / 了 / 

上 述 这 两 种 识别 结果 分 别 叫 作 S1 和 $。 如 何 评价 这 两 种 识别 结果 呢 ? 简化 声学 模 
型 的 计算 结果 ， 哪 个 识别 结果 更 有 可 能 在 语料库 中 出 现 就 选择 哪个 识别 结果 。 

计算 条 件 概率 P(S1|C) 和 P(Szl|C)， 然 后 根据 P(S1IC) 和 P(S21C) 的 值 来 决定 是 选择 5S1 
还 是 选择 8。 

因 联 合 概率 P(C,S) = P(SIC)P(C) = P(CIS)P(S)， 所 以 有 : 
P(C|S)P(S) 
ee 
这 也 叫 作 贝 叶 斯 公式 。P(C) 是 字 串 在 语料库 中 出 现 的 概率 。 比 如 说 语料库 中 有 1 万 个 
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句子 , 其 中 有 一 句 是 “生命 的 意义 是 什么 ”， 那么 P(O)=P(" 生 命 的 意义 是 什么 ")=0.0001。 
在 贝 叶 斯 公式 中 P(O) 只 是 一 个 用 来 归 一 化 的 固定 值 ， 所 以 实际 分 词 时 并 不 需要 计算 。 

从 词 串 恢复 到 汉字 串 的 概率 只 有 唯一 的 一 种 方式 , 所 以 P(CIS)=1。 因此 , 比较 PS1IO) 
和 P(sz|O) 的 大 小 变 成 比较 PCSD 和 P(Sz) 的 大 小 。 也 就 是 说 ， 


P(SIC) _ P(S) 
P(SO) ™ P(S;) 


因为 P(51)=P( 已 经 ,还 ,了 )> P(S2)=P( 已 经 , 黄 ， 了 ), 所 以 选择 识别 方案 51 而 不 是 52。 
概率 语言 模型 的 任务 是 评估 给 定 词 序列 S 的 概率 P(5)。 那么 , 如 何 来 表示 P(S) 呢 ? 
为 了 简化 计算 ， 假 设 每 个 词 之 间 的 概率 是 与 上 下 文 无 关 的 ， 则 : 
P(S)=P(@1,02,°"", OEP!) P(oz)…P(onD 
其 中 ，P(w) 就 是 词 w 出 现在 语料库 中 的 概率 。 例 如 : 
P(S)=P( 已 经 ,还 ,了 ) 守 P( 已 经 ) P( 还 ) PC 了 ) 
词 表 中 的 词 往往 很 多 ， 分 挫 到 一 个 词 的 概率 可 能 很 小 ， 所 以 P(5) 一 般 是 通过 很 多 
小 数值 的 连 乘积 算出 来 的 。 如 果 一 个 数 太 小 ， 可 能 会 向 下 溢出 ， 变 成 零 。 例 如 
0.000000000000000000000000000001，double 类 型 表示 不 出 如 此 小 的 数 。 因 为 函数 
J 王 log(0)， 当 x 增 大 ，? 也 会 增 大 ， 所 以 是 单调 递增 函数 。 取 对 数 后 ， 表 示 一 个 小 于 1 
的 正 数 的 精确 度 加 大 了 。 
PC 一 PoD P(oz)…P(onDsslogP(ol)+logP(o2z)+…+logP(onD 
这 里 的 ~ 是 正比 符号 ,因为 词 的 概率 小 于 1, 所 以 取 对 数 后 是 负数 。 最 后 算 logP(w)， 
计算 任意 一 个 词 出 现 的 概率 如 下 : 


Q@ 在 语料库 中 的 出 现 次 数 n 
语料库 中 的 总 词 数 N 
此 logP(w)=log(freq,) -logN 
如 果 词 概率 的 对 数值 事前 已 经 算出 来 了 ， 则 结果 直接 用 加 法 就 可 以 得 到 logP(S)， 
而 加 法 比 乘法 速度 更 快 。 


P(@)= 


ss 
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这 个 计算 P(S) 的 公式 也 叫 作 基于 一 元 概率 语言 模型 的 计算 公式 。 


8.1.1 一 元 模型 


假设 语料库 有 10 000 个 词 ， 其 中 “了 ”这 个 词 出 现 了 180 次 ， 则 它 的 出 现 概 率 为 
0.018， 形 式 化 的 写法 : P( 了 )=0.018。 词 语 概 率 表 如 表 8-1 所 示 。 
表 8-1 词语 概率 表 


词 语 概 率 
Ef 0.0180 
还 0.0005 
已 经 0.0010 
黄 0.0002 


P(S1) = P( 已 经 ) P( 还 ) P( 了 ) = 0.001 x0.0005 x 0.018=9 x 10? 

P(S1) = P( 已 经 ) P( 黄 ) P( 了 ) = 0.001 x0.0002 x 0.018=3.6x10” 

可 得 P(S1) > P(S)， 所 以 选择 51 对 应 的 切 分 。 

为 了 避免 向 下 溢出 ， 取 对 数 的 计算 结果 : 

log P(S1) = log P( 已 经 ) + log P( 还 ) + log P( 了 ) = -18.526041259610192 
log P(S;) = log P( 已 经 ) + log P( 黄 ) + log P( 了 ) = -19.442331991484348 
仍然 为 : log P(S1)> log P(5;) 


8.1.2 ”数据 基础 
概率 语言 模型 需要 知道 哪些 是 高 频 词 ， 哪 些 是 低频 词 。 也 就 是 : 
__ fieq(w) 
PC = 至 二 启 的 总 天 区 


词语 概率 表 是 从 语料库 统计 出 来 的 。 为 了 支持 统计 中 文 分 词 方法 ， 又 有 分 词语 料 
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库 。 分 词语 料 库 内 容 样 例如 下 : 
出 国 ” 中介 不 能 做 出 境 游 

从 分 词语 料 库 加 工 出 人 工 可 以 编辑 的 一 元 词典 。 因 为 一 元 的 英文 叫 法 为 Unigram， 
所 以 往往 把 一 元 词典 类 叫 作 UnigramDic。UnigramDic.txt 中 每 行 一 个 词 及 这 个 词 对 应 
的 次 数 ， 并 不 存储 全 部 词 出 现 的 总 次 数 totalFreq。UnigramDic.txt 中 的 样本 如 下 : 

有 :180 

有 意 :5 

意见 :10 

见 :2 

分 歧 :1 

大 学 生 :139 

生活 :1671 

一 元 词典 树 〈Trie) 如 图 8-1 所 示 。 


在 Trie 上 
增加 词 频 信息 


频率 : 139 


频率 : 1671 


图 8-1 一 元 词典 树 
根据 UnigramDic.txt 生成 词典 树 的 主要 代码 如 下 : 


while ( ((line = in.readLine()) != null)) { // 逐 行 读 入 词典 文本 文件 
StringTokenizer st = new StringTokenizer(line,"\t"); 
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String word = st.nextToken(); // 词 
int freq = Integer.parseInt (st.nextToken());  // 次 数 
addWord (word, freq); // 把 词 加 入 词典 树 
totalFreq += freq; // 词 的 次 数 加 到 总 次 数 


为 了 快速 生成 词典 树 ， 可 以 把 词典 树 的 结构 保存 下 来 ， 以 便 以 后 直接 根据 其 生成 
词典 树 。 这 里 对 树 中 的 每 个 节点 编号 ， 并 根据 编号 存储 节点 之 间 的 引用 关系 ， 第 一 列 
是 节点 的 编号 ， 第 二 列 是 左边 孩子 节点 的 编号 ， 第 三 列 是 中 间 孩 子 节点 的 编号 ， 第 四 
列 是 右边 孩子 节点 的 编号 ， 最 后 一 列 写 入 节点 本 身 存 储 的 数据 。 


0#1#2#3# 有 
了 #4 间 5#6# 基 
2 间 7 非 8 非 9 提 首 
3# 井 10#11 井 12 间 凑 
4# 工 3#14 井 15 间 决 
5 井 1 6#17#18 间 诺 


采用 广度 优先 方式 遍历 树 中 的 每 个 节点 ， 同 时 对 每 个 节点 编号 。 没 有 孩子 节点 的 
分 支 节 点 编号 设置 为 -1。 


TSTNode currentNode = rootNode; // 从 根 节 点 开始 遍历 树 
int currNodeCode = 0; // 当 前 节点 编号 从 0 开始 


int leftNodeCode; // 当 前 节点 的 左 孩 子 节点 编号 
int middleNodeCode; // 当 前 节点 的 中 间 孩 子 节点 编号 
int rightNodeCode; // 当 前 节点 的 右 孩 子 节点 编号 


int tempNodeCode = currNodeCode; 
Deque<TSTNode> queueNode = new ArrayDeque<TSTNode>(); // 存 放 节点 数据 的 队列 


queueNode .addFirst (CurrentNode) 
Deque<Integer> queueNodeIndex = new ArrayDeque<Integer>();// 存 放 节 点 编号 的 队列 
queueNodeIndex.addFirst (currNodeCode); 


FileWriter filewrite = new FileWriter (filepath); 


BufferedWriter writer = new BufferedWriter (filewrite); 
StringBuilder lineInfo = new StringBuilder(); // 记 录 每 一 个 节点 的 行 信息 
while (!queueNodeIndex.isEmpty()) { // 广 度 优先 遍历 所 有 树 节点 ,将 其 加 入 队列 中 


currentNode = queueNode.pollFirst (); 
// 取 出 队列 中 第 一 个 节点 ,同时 把 它 从 队列 删除 
currNodeCode = queueNodeIndex.pollFirst (); 
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» 
writer.close () 
filewrite.close(); 


因为 当前 节点 要 指向 后 续 节 点 ， 所 以 一 开始 就 预先 创建 出 所 有 的 节点 ， 再 逐个 填 
充 每 个 节点 中 的 内 容 并 搭建 起 当前 节点 和 孩子 节点 之 间 的 引用 关系 。 读 入 树 结 构 的 代 
码 如 下 : 

TSTNode[] nodeList = new TSTNode [nodeCount]; // 创 建 出 节点 数组 

// 预 先 创建 出 所 有 的 节点 

for (int i = 0; i < nodeList.length; ++i) { 


nodeList[i] = new TSTNode(); 


} 
while ((lineInfo = reader.readLine()) != null) { // 读 入 一 个 节点 相关 的 信息 


StringTokenizer st = new StringTokenizer(lineInfo,，"#"); // 用 "#" 分 隔 
int currNodeIndex = Integer.parseInt (st.nextToken() ); // 获 得 当前 节点 编号 
int leftNodeIndex = Integer.parseInt (st.nextToken() ); // 获 得 左 子 节点 编号 
int middleNodeIndex = Integer.parseInt (st.nextToken()); 
// 获 得 中 子 节点 编号 
int rightNodeIndex = Integer.parseInt (st.nextToken()); 
// 获 得 右 子 节点 编号 
TSTNode currentNode = nodeList[currNodeIndex]; // 获 得 当前 节点 
if (leftNodeIndex >= 0) { // 从 节点 数组 中 取得 当前 节点 的 左 孩子 节点 
currentNode.1oNode = nodeList[leftNodeIndex]; 
} 
if (middleNodeIndex >= 0) { // 从 节点 数组 中 取得 当前 节点 的 中 孩子 节点 
currentNode.eqNode = nodeList[middleNodeIndex]; 
} 
if (rightNodeIndex >= 0) { // 从 节点 数组 中 取得 当前 节点 的 右 孩 子 节点 
currentNode.hiNode = nodeList[rightNodeIndex]; 


} 
char splitChar = st.nextToken() .charAt (0); // 获 取 splitchar 值 


currentNode.splitchar = splitchar; // 设 置 splitchar 值 
} 


或 者 先 创建 叶 节点 , 再 往 上 创建 , 直到 根 节点 。 实 际 中 , 大 多 使 用 二 进 制 格式 的 文件 ， 
因为 二 进 制 文 件 比 文本 文件 加 载 速度 更 快 。 生 成 词典 结构 的 二 进 制 文件 UnigramDic.bin 的 
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实现 代码 如 下 : 
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从 二 进 制 文件 UnigramDic.bin 创建 词典 树 ， 实 现代 码 如 下 : 
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二 进 制 格式 的 词典 文件 中 是 保存 词 概率 取 对 数 后 的 值 ， 而 不 是 保存 词 频 ， 所 以 不 
会 保留 词 频 总 数 。 


二 进 制 格式 的 词典 文件 先 写 入 节点 总 数 ， 然 后 写 入 每 个 节点 的 信息 。 为 了 方便 在 
Web 界面 上 修改 词 库 ， 可 以 把 词 保存 到 数据 库 中 。 创 建 词 表 的 SQL 语句 如 下 : 
| 
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ID VARCHAR(20) not nul1， // 词 ID 
PARTSPEECH “VARCHAR(20)， // 词 性 

WORD VARCHAR(200)， // 单 词 

FREQ INT， // 词 频 


constraint PK WORD BASEWORD primary key (ID) 
); 


从 MySQL 数据 库 读 出 词 的 代码 如 下 : 


Properties properties = new Properties(); 
Inputstream 
is=this.getClass() .getResourceAsStream("/database.properties"); 
properties.load (is); 
is.close(); 
String driver = properties.getProperty ("driver");//"com.mysql .jdbc.Driver"; 
String Url = properties.getProperty ("url");//"jdbc:mysql://192.168.1.11:3306/ 
seg?useUnicode=trueg&amp; characterEncoding=GB2312"; 
String user = properties.getProperty ("user");//"root"; 
String password = properties.getProperty ("password");//"lietu"; 
Driver drv = (Driver)Class.forName (driver) .newInstance(); 
DriverManager.registerDriver (drv); 
Connection con = DriverManager.getConnection (url,user,password); 
String sql =("SELECT word, pos, freq FROM AI basewords"); 
Statement stmt = con.createstatement (); 
ResultSet rs = stmt .executeQuery (5q1) 7 
while (rs.next() ){ 
String key = rs.getstring(1); 
String pos = rs.getstring (2); 
int freq = rs.getInt (3); 
addWord (key, pos, freq); // 增 加 词 表 到 词典 树 
rs.close(); 
stmt.close(); 
con.close(); 


8.1.3 ”改进 一 元 模型 
使 用 更 多 的 信息 来 改进 一 元 分 词 。 计 算 从 最 佳 前 驱 节 点 到 当前 节点 的 转移 概率 时 ， 
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考虑 更 前 面 的 切 分 路 径 。 在 不 改变 其 他 的 情况 下 ， 用 条 件 概率 PowiwiD 的 值 代替 Pwi)， 
所 以 这 种 方法 叫 作 改 进 一 元 分 词 。 如 果 用 最 大 似 然 法 估计 PCwiwiD 的 值 , 则 有 PCwlwiD = 
fireq(wiiwi) /freq(wi1)。 假 设 在 二 元 词 表 中 .freq( 有 ,意见 )=4， 则 : 
P( 意 见 | 有 ) 伟 freq( 有 ,意见 ) /freq( 有 )=4/4000=0.001 

可 以 从 语料库 中 找 出 n 元 连接 ， 例 如， 语料库 中 存在 “北京 / 举行 / 新 年 / 音 
乐 会 /”， 则 存在 一 元 连接 : 北京 、 举 行 、 新 年 、 音 乐 会 ， 存 在 二 元 连接 : 北京 @ 举 行 ， 
举行 @ 新 年 ， 新 年 @ 音 乐 会 。 也 可 以 从 语料库 统计 前 后 两 个 词 一 起 出 现 的 次 数 。 

由 于 数据 稀疏 ， 导 致 “意见 , 分 歧 ” 等 其 他 的 搭配 都 没 找到 。P(S1) 和 P(S>) 都 将 是 0， 
无 法 通过 比较 计算 结果 找到 更 好 的 切 分 方案 。 这 就 是 零 概率 问题 。 

使 用 freq(wii,wi)/freq(wii) 来 估计 P(wilwi1)， 使 用 freq(wiz,wii,wi)/freq(wi2,wi) 来 
估计 Plwilwi-z,wi1)。 因 为 这 里 采用 了 最 大 似 然 估 计 ， 所 以 把 freq(wii,wi) /freq(wi1) 叫 作 


PM (wilwi-1)。 


RWNW)= ARa (Ww)+hRa W|Iw) 
=A(freqw)/N)+h(freqwis, wm)/ red) 
这 里 的 t=1， 且 对 所 有 的 i 来 说 ， 宇 0。N 为 语料库 的 长 度 。 
对 于 五 (Wi|wWis,Wi)， 则 有 : 
RW mW) = Ra WwW)+thRa Www) + hRa Wl ww) 
这 里 tlztl=1， 且 对 所 有 的 i 来 说 ，ii 宇 0。 
根据 平滑 公式 计算 ， 由 于 : 
Pw | wi1)=0.3P(W)+0.7P(w |w) 

因此 ， 有 : 
P(S1) = P( 有 ) P (意见 有 ) P' (分 歧 | 意 见 ) 

三 P( 有 ) x (0.3P( 意 见 )+0.7P( 意 见 | 有 )) x (0.3P( 分 歧 )+0.7P( 分 歧 | 意 见 ) ) 

= 0.0180x(0.3x0.001+0.7x0.001) x(0.3x0.0001) 

:54X10 
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P(S;) = P( 有 意 ) P'( 见 | 有 意 ) P' (分歧 | 见 ) 
= P( 有 意 ) x (0.3P( 见 )+0.7P( 见 | 有 意 )) x (0.3P( 分 歧 )+0.7P( 分 歧 | 见 ) ) 
= 0.0005x(0.3x0.0002) x(0.3x0.0001) 
一 9x1033 

故 ，P(S1) > P(S2)。 相 对 于 基本 的 一 元 模型 ， 改 进 一 元 模型 的 区 分 度 更 好 。 


8.1.4 二 元 词典 


在 实际 应 用 中 , 往往 把 二 元 词典 类 叫 作 BigramDic。 把 “0START.0” 和 “0END.0” 
当 作 两 个 特殊 的 词 ， 实 现代 码 如 下 : 


public class UnigramDic { 
public final static String startWord="0START.0"; // 虚 拟 的 开始 词 


public final static String endWord="0END.0"; // 虚 拟 的 结束 词 
} 


例如 : 

0START.0@ 欢 迎 一 一 “欢迎 ”是 一 个 开始 词 。 

什么 @0END.0 一 一 “什么 ”是 一 个 结束 词 。 

二 元 词 表 的 格式 为 “前 一 个 词 @ 后 一 个 词 :这 两 个 词组 合 出 现 的 次 数 ”， 例 如 : 

中 国 @ 北 京 :100 

中 国 @ 北 海 :1 

二 元 词 表 中 词 条 数量 很 大 ， 至 少 有 几 十 万 条 ， 所 以 要 考虑 如 何 快速 查询 。 快 速 查 
找 前 后 两 个 词 在 语料库 中 出 现 的 频次 。 

可 以 把 二 元 词 表 看 成 是 基本 词 表 的 常用 搭配 。 两 个 词 的 搭配 到 一 个 整数 值 的 映射 
关系 ， 可 以 用 一 个 HashMap 表示 。 


public class WordBigram { 
public string left; // 左 边 的 词 
public String right; // 右 边 的 词 
public WordBigram(String 1，String r) { // 构 造 方法 
left = 1; 
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键 为 WordBigram 类 型 ， 而 值 为 整数 类 型 。 用 一 个 HashMap 存 取 两 个 词 的 搭配 
信息 : 


把 相同 前 绥 或 相同 后 级 的 词 放 在 一 个 小 的 散 列表 中 。 把 二 元 词 表 看 成 是 一 个 柑 套 
的 映射 ， 用 一 个 习 套 的 散 列表 表示 : 
~ HashMap<string,Hashyap<string,Inteqer> bigqrans= 
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new HashMap<String, HashMap<String, Integer>>(); 
HashMap<String, Integer> val = new HashMap<String, Integer> () 7 
Tal Put ("北京 "，10); 
val.put ("上 海 "，100); 
bigrams .put ("中 国 "，val); 
System.out.println (bigrams .get ("中 国 ") .get ("上 海 ") );// 输 出 100 


散 列表 存储 一 个 String 对 象 不 止 4 字 节 ， 而 int 类 型 为 4 字 节 。 为 了 节省 内 存 , 给 
为 


每 个 词 编号 ， 用 整数 代替 。 这 里 的 HashMap 往往 会 有 空位 置 ， 不 是 最 小 完美 散 列 。 
了 节省 内 存 ， 用 折 半 查找 来 查找 排 好 序 的 数组 。 


一 种 实现 方法 是 可 以 在 基本 词典 树 的 可 结束 结 点 上 再 挂 一 个 词典 树 ， 但 这 样 占用 


内 存 多 。 


快 。 


另外 一 种 方法 是 给 每 个 词 编 号 ， 存 储 整 数 到 整数 的 编号 ， 用 数组 完全 展开 速度 最 
如 果 有 个 词 ， 则 可 以 通过 如 下 的 方法 取得 某 个 二 元 连接 的 频率 。 

int N = 20000; 

int wl=5; // 前 一 个 词 的 编号 

int w2=8; // 后 一 个 词 的 编号 

int[] [] biFreq = new int[N] [N]; 

int freq = biFreq[wl] [w2]; // 二 元 连接 的 频率 


分 词 初始 化 时 ， 先 加 载 基本 词 表 ， 对 每 个 词 编号 ， 然 后 加 载 二 元 词 表 ， 只 存储 词 


的 编号 。 


此 外 , 二 元 词 频 用 开放 寻 址 的 散 列 表 也 是 一 个 方法 。 将 两 个 int 类 型 混合 到 一 起 做 


键 ， 用 xor。 


把 搭配 信息 存放 在 词典 树 的 叶子 节点 上 ， 可 以 看 成 是 一 个 “ 键 / 值 ”对 组 成 的 数组 ， 


键 为 词 编号 ， 值 为 组 合 频率 ， 实 现代 码 如 下 : 用 BigramMap 表示 。 


public class BigramMap { 
public int[] keys;// 词 编号 
public int[] vals;// 组 合 频率 


以 存储 “大 学 生 ， 生 活 ” 为 例 , “生活 ”的 词 编号 为 8, “大学生” 的 词 编号 为 5。 


a 
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假设 “大 学 生 ， 生 活 ” 的 频率 为 3， 增 加 二 元 连接 信息 后 的 词典 树 如 图 8-2 所 示 。 


在 词典 树 上 
增加 二 元 信息 


wld:8 


wld-> 频 率 5->3 


图 8-2 词典 树 


首先 加 载 基本 词典 (也 就 是 一 元 词典 ) ， 构 建 词典 树 结构 ， 然 后 加 载 二 元 词典 ， 
也 就 是 在 词典 树 结构 上 挂 二 元 连接 信息 后 的 词典 树 。 
加 载 基 本 词典 ， 形 成 词典 树 的 结构 : 


public TSTNode rootNode; 

public double n = 0; // 统 计 词典 中 总 词 频 

public int id = 1; // 存 储 每 一 个 词 的 id 

public void loadBaseDictionay (String path) throws Exception { 
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InputStream file = new FileInputStream(new File (path)); 
BufferedReader read = new BufferedReader (new InputStreamReader (file, "GBK")); 
String line = null; 
String pos; 
while ((line = read.readLine()) != null) { 
StringTokenizer st = new StringTokenizer(line, "™:"); 
String key = st.nextToken(); // 单 词 文本 
pos = st.nextToken () 7 
byte code = PartOfSpeech.values.get (pos);  // 词 性 编码 
int frq = Integer.parseInt (st.nextToken () ) ; // 单 词 频率 
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加 载 二 元 词典 。 扫 描 二 元 连接 词典 ， 在 词典 树 中 的 每 个 词 对 应 的 节点 上 加 上 前 缀 


词 编号 对 应 的 频率 。 以 下 是 一 个 整数 到 整数 的 键 / 值 对 。 
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建立 好 词典 后 ， 


查找 二 元 频率 的 过 程 如 下 : 


每 次 都 从 根 节点 查找 ， 加 载 速度 慢 。 把 这 个 词典 树 保存 到 一 个 文件 中 ， 以 后 可 以 
直接 从 该 文件 生成 树 ， 实 现代 码 如 下 : 


236s 
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8.1.5 完全 二 叉 树 数组 


词典 树 的 叶 结 点 中 存储 了 词 编号 和 对 应 的 频率 。 为 了 节省 空间 ， 把 键 和 值 都 存放 
在 一 个 数组 中 。 对 数组 排序 后 ， 可 以 使 用 折 半 查找 数组 ， 也 可 以 使 用 完全 二 叉 树 实现 
更 快 查找 ， 如 图 8-3 所 示 。 


图 8-3 完全 二 又 树 


Ds 
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图 8-3 所 示 的 完全 二 叉 树 数组 为 {5,3,78,1,4,6}。 为 什么 使 用 完全 二 叉 树 ? 为 了 不 浪 
费 数组 中 的 空间 。 数 组 元 素 不 是 正好 能 构成 满 树 ， 所 以 只 能 是 完全 二 又 树 。 
数组 形式 存储 的 完全 二 又 树 : 


这 里 的 数组 keys 和 数组 vals 中 的 元 素 一 一 对 应 ， 也 就 是 说 keys[i] 和 vals[i 中 的 值 
对 应 ， 所 以 叫 作 平行 数组 。 
根据 给 定 的 数组 构建 完全 二 叉 树 数组 。 


根据 键 查询 值 的 过 程 比 折 半 查 找 快 。 


完全 二 叉 树 比 折 半 查 找 更 快 。 
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可 以 先 把 所 有 的 元 素 排 好 序 ， 元 素 的 编号 从 0 开始 。 对 于 固定 数量 的 元 素 ， 都 有 
一 个 分 配 模式 。 也 就 是 说 ， 如 果 是 一 个 完全 树 ， 则 左边 应 该 有 多 少 元 素 ， 右 边 应 该 有 
多 少 元 素 。 

当 总 共有 两 个 元 素 时 ， 选 择 左边 的 1 个 元 素 ， 右 边 没 有 ， 也 就 是 将 第 1 个 元 素 作 
为 根 节点 。 当 总 共有 6 个 元 素 时 ， 选 择 左边 的 3 个 元 素 ， 右 边 的 2 个 元 素 ， 也 就 是 将 
第 3 个 元 素 作为 根 节点 。 

计算 完全 二 又 树 的 深度 ， 再 看 底层 节点 中 有 几 个 在 根 节 点 的 左边 。 
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int bottom = num - m+1; // 底 层 实 际 节点 总 数 
int leftMaxBottom = m >> 17  // 假 设 是 满 二 又 树 的 情况 下 , 左边 节点 最 大 数量 
if (bottom > leftMaxBottom) { // 左 边 已 经 填 满 
bottom = leftMaxBottom; 
} 


int index = bottom; // 左 边 的 底层 节点 数 
if (m>1){ // 加 上 内 部 的 节点 数 
index += ((m >> 1) - 1); 


’ 
return index; 


例如 ， 对 于 下 面 的 数据 ， 测 试 哪 一 个 作为 根 节点 : 


int[] data ={1,3,4,5,6}; 
System.out .println (data[getRoot (data.length)]); // 输 出 5 


把 5 作为 根 节点 ， 这 样 才能 得 到 一 个 完全 二 叉 树 ， 如 图 8-4 所 示 。 


图 8-4 完全 二 又 搜 索 树 


完全 二 又 搜索 树 的 任何 一 个 非 叶 节 点 的 左 子 树 和 右 子 树 也 都 是 完全 二 叉 搜 索 树 。 
所 以 对 于 左边 的 元 素 和 右边 的 元 素 可 以 不 断 地 调用 getRoot 方 法。 如 果 要 把 一 个 已 经 生 
成 好 的 链表 形式 的 二 又 树 转换 成 数组 形式 存放 ， 可 以 采用 广度 优先 遍历 树 的 方法 。 要 
处 理 的 数组 范围 记录 在 Span 类 中 ， 实 现代 码 如 下 : 


static class Span { 


int start; // 开 始 区 域 

int end; // 结 束 区 域 

public Span(int s，int e) {  // 构 造 方法 
Slant sa 
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end = e7 


构建 完全 二 叉 数组 的 过 程 类 似 广度 优先 遍历 树 。 首 先 把 根 节点 放 入 队列 ， 然 后 取 
出 队列 中 的 节点 ， 访 问 这 个 节点 后 ， 把 它 左边 和 右边 的 孩子 节点 放 入 队列 。 采 用 队列 
ArrayDeque 存储 要 处 理 的 数组 范围 Span。 构 建 完 全 二 又 数 组 的 实现 代码 如 下 : 


public void buildaArray(int[] keys, int[] values) { 


sortArrays (keys, values); // 先 对 数组 排序 
int pos = 0; // 已 经 处 理 的 位 置 
this.keys = new int[keys.length]; // 完 全 二 叉 树 数组 


this.vals = new int[keys.length]; 
ArrayDeque<Span> queue = new ArrayDeque<Span>();  // 堆 栈 
queue.add(new Span(0，keys.length)); // 加 入 数组 的 整个 长 度 
while (!queue.isEmpty()) { // 如 果 堆 栈 中 还 有 元 素 
Span current = queue.pop(); // 取 出 元 素 
int rootId = CompleteTree.getRoot (current .end - current.start) 
+ current.start; 
this.keys[pos] = keys[rootId]; 


this.vals[pos] values [rootId]7 
Pos++7 
if (rootId > current.start) 
queue.add (new Span(current.start, rootId)); 
rootId++; 
if (rootId < current.end) 


queue.add (new Span(rootId, current.end)); 


8.1.6 三 元 词典 


对 于 三 元 分 词 ， 要 查找 三 元 词典 。 三 元 词典 结构 可 以 在 二 元 词典 结构 上 修改 一 一 
还 是 键 值 对 ， 多 套 一 层 ， 还 是 如 同 二 元 词典 的 BigramMap 那样 ， 多 肉 套 一 层 。 
在 BigramMap 中 增加 一 个 IDFreqs[]， 实 现代 码 如 下 : 


public class BigramMap{ 
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public int[] prevIids; // 前 级 词 id 集合 
public int[] freqs; // 组 合 频率 集合 
public IDFreqs[] prevGrams;  // 前 级 元 
public int iqd; // 词 本 身 的 id 

1 

二 级 前 驱 词 : 


public class IDFreqst{ 
int[] ids; // 词 编号 
int[] freqs; // 次 数 
} 


布 隆 过 滤器 存储 n 元 连接 。 如 果 内 存放 不 下 ,可 以 把 n 元 连接 存储 在 B+ 树 结构 的 
嵌入 式 数据 库 中 。 


8.1.7 NN 元 模型 


为 了 切 分 更 准确 ， 要 考虑 一 个 词 所 处 的 上 下 文 。 例 如 ，“ 上 海 银行 间 的 拆借 利率 
上 升 ”， 因 为 “银行 ”后 面 出 现 了 “ 间 ” 这 个 词 ， 所 以 把 “上 海 银行 ”分 成 “上 海 ” 
和 “银行 ”两 个 词 。 

一 元 分 词 假设 前 后 两 个 词 的 出 现 概率 是 相互 独立 的 ， 但 实际 不 太 可 能 。 例 如 ， 沙 
县 小 吃 附近 经 常 有 桂林 米粉 ， 所 以 “沙县 小 吃 ” 和 “桂林 米粉 ”这 两 个 词 是 正 相 关 。 
但 是 很 少 会 有 人 把 “沙县 小 吃 ” 和 “星巴克 ”相提并论 。 再 如 ，[ 羔 莫 ][ 嫉 妨 ][ 恨 ] 这 3 个 
词 有 时 会 连续 出 现 ， 切 分 出 来 的 词 序列 越 通顺 ， 越 有 可 能 是 正确 的 切 分 方案 。N 元 模 
型 使 用 n 个 单词 组 成 的 序列 来 衡量 切 分 方案 的 合理 性 。 

估计 单词 w 后 出 现 wz 的 概率 。 根 据 条 件 概 率 的 定义 : 

PWw,w,) 
POw) 


Pw 1m)= 


可 以 得 到 : P(wi,w2)= Pwi)P(wzlwi) 
同 理 : Pwiwz,w3)= PWwiw2)POwahwi,w2) 
所 以 有 : Pwiw2w3)= Pwi)Pwawi) POwawiwy) 
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更 加 一 般 的 形式 : 

P(S)=P(Wwiw2, wa)= PWI)PWw WwW) Pwawi,w2) Pwowiw2. -wa-1) 

这 叫 作 概率 的 链 规则 。 其 中 ，PQw2hwi) 表 示 wi 之 后 出 现 wz 的 概率 。 如 果 词 w1 和 ws 独 
立 出 现 ， 则 P(wzlw1) 等 价 于 Pl(w2)。 这 样 需要 考虑 在 n-1 个 单词 序列 后 出 现 单词 w 的 概 
率 。 直 接 使 用 这 个 公式 计算 P(S) 存 在 两 个 致命 的 缺陷 : 一 个 缺陷 是 参数 空间 过 大 ， 不 
可 能 实用 化 ; 另 一 个 缺陷 是 数据 稀 朴 严重 。 例 如 ， 当 词汇 量 〈 了 切 为 20 000 时， 可 能 
的 二 元 组 合 数量 有 400 000 000 个 ， 可 能 的 三 元 组 合 数量 有 8 000 000 000 000 个 ， 可 能 
的 四 元 组 合 数量 有 1.6x10" 个 。 

为 了 解决 这 个 问题 ， 我 们 引入 了 马尔 科 夫 假设 ， 即 一 个 词 的 出 现 仅仅 依赖 于 它 前 
面 出 现 的 有 限 的 一 个 或 几 个 词 。 如 果 简 化 成 一 个 词 的 出 现 仅 依赖 于 它 前 面 出 现 的 一 个 
词 ， 那 么 就 称 为 二 元 模型 (Bigram) ， 即 

P(S) = Pwi,w2,- wn)= POwD POwalwi) POwahwiswa):-P(wawiw2 wa!) 
EPw1) Pwawi) Pwalwa)-…P(walwa-1) 

例如 ， 

P(S1) = P( 有 ) P( 意 见 有 ) P( 分 歧 | 意 见 ) 

如 果 简 化 成 一 个 词 的 出 现 仅 依赖 于 它 前 面 出 现 的 两 个 词 ， 就 称 为 三 元 模型 
(Trigram) 。 如果 一 个 词 的 出 现 不 依赖 于 它 前 面 出 现 的 词 , 就 称 为 一 元 模型 (Unigram)， 
也 就 是 已 经 讲解 过 的 概率 语言 模型 分 词 方法 。 

如 果 切 分 方案 8 是 由 个 词组 成 的 , 那么 Pew1) POwzhwi)P6walw2)…P(wnjwni) 也 是 n 
项 连 乘积 。 无 论 是 采用 一 元 模型 、 二 元 模型 还 是 采用 三 元 模型 ， 都 是 n 项 连 乘积 。 只 
不 过 二 元 以 上 模型 是 条 件 概率 的 连 乘积 。 例 如 ， 对 于 切 分 “有 意见 分 歧 ” 来 说 ， 二 元 
模型 计算 : P( 有 ) P( 意 见 | 有 ) P( 分 歧 | 意见 )， 三 元 模型 计算 : P( 有 ) P( 意 见 | 有 ) P( 分 歧 | 有 ， 
意见 )。 

因为 PowilwiD =freq(wiiwi) /freq(wil)， 所 以 二 元 分 词 不 仅 用 到 二 元 词典 ， 还 需要 
用 到 一 元 词典 。 
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8.1.8 生成 语言 模型 


先 有 语料库 , 后 有 词典 文件 。 如 果 输 入 串 是 “ 迈 向 充满 希望 的 新 世纪 ”， 
则 返回 “ 迈 向 @ 充 满 ”“ 充 满 @ 希 望 ”“ 希 望 @ 的 ”“ 的 @ 新 ”“ 新 @ 世 纪 ”5 个 二 元 
连接 ,再 加 上 虚拟 的 开始 词 和 结束 词 , 分 别 为 “0START.0@ 迈 向 ”和 “世纪 @0END.0”。 
以 下 代码 用 于 找到 切 分 语料库 中 所 有 的 二 元 连接 串 。 


FileInputStream file = new FileInputStream(new File (fileName)); 
BufferedReader buffer = new BufferedReader (new InputStreamReader (file, "GBK") ) 
BufferedWriter result = new BufferedWriter (new FileWriter (resultFile, true)); 


String line; 
while ((line = buffer.readLine()) != null) { // 按 行 处 理 
if (line.equals("")) 
continue; 
StringTokenizer st = new StringTokenizer(line," " ); // 用 空格 分 开 
String prev = st.nextToken(); // 取 得 上 一 个 词 
if(!st.hasMoreTokens () ) { 
continue; 
} 
String next = st.nextToken(); // 取 得 下 一 个 词 
if(!st.hasMoreTokens () ) { 
continue; 
} 
while (true) { 
String bigramstr = prev + "@" + next; // 组 成 一 个 二 元 连接 
result .write (bigramStr); ”// 把 二 元 连接 串 写 入 结果 文件 
result .write("™\r\n"); 


if(!st.hasMoreTokens ()){  // 如 果 没有 更 多 的 词 ， 就 退出 


break; 
} 
prev = next; // 下 一 个 词 作为 上 一 个 词 
next = st.nextToken(); // 得 到 下 一 个 词 
} 
站 
result.close(); // 关 闭 写 入 文件 


因为 词 是 先进 先 出 的 ， 所 以 一 个 n 元 连接 用 一 个 容量 为 n 的 队列 表示 。 当 为 只 有 
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固定 长 度 的 队列 添加 一 个 元 素 时 ， 队 列 会 溢出 固定 大 小 。 也 就 是 说 ， 这 个 队列 不 能 保 
留 所 有 的 元 素 ， 会 自动 移 除 最 老 的 元 素 。 实 现 一 个 三 元 连接 的 代码 如 下 : 
CircularQueue q = new CircularQueue (3); // 容 量 为 3 的 队列 
G-add(" 迈 向 ") 7 
qadq ("充满 "); 
q-adqd ("希望 "); 
q-adqd ("的 "); 
qadqd ("新 "); 
qadqd ("世纪 "); 
Iterator it = q.iterator(); 
// 因 为 q 中 只 保留 了 3 个 词 ,所 以 只 返回 3 个 词 
while (it.hasNext()) { 
Object word = it.next(); 
System.out .Print (word+" "); 
} 


输出 结果 : 

的 新 世纪 

统计 元 概率 的 项 目 (https://github.com/esbie/ngrams) 。 首 先 从 人 民 日 报 切 分 语 料 
库 得 到 新 闻 行 业 语言 模型 ， 然 后 切 分 行业 文本 得 到 垂直 语料库 ， 最 后 根据 垂直 语料库 统 
计 出 垂直 语言 模型 ， 这 样 可 以 提升 语言 模型 准确 度 。 


8.1.9 评估 语言 模型 


通过 困惑 度 (Perplexity) 来 衡量 语言 模型 。 困 惑 度 是 和 一 个 语言 事件 的 不 确定 性 
相关 的 度量 。 考 虑 词 级 别 的 困惑 度 ，“ 行 ”后 面 可 以 跟 的 词 有 “不 行 ” “代码 ”“ 善 ” 
“ 走 ”, 所 以 “ 行 ”的 困惑 度 较 高 。 但 有 些 词 不 太 可 能 跟 在 “ 行 ”后 面 , 例如 “您 ”““ 分 ”。 
而 有 些 词 的 困惑 度 比较 低 ， 例 如 “康佳 ”等 专 有 名 词 ， 后 面 往往 跟着 “彩电 ”等 词 。 
语言 模型 的 困惑 度 越 低 越 好 ， 相 当 于 有 比较 强 的 消除 歧义 能 力 。 如 果 从 更 专业 的 语 
料 库 学 习 出 语言 模型 ， 则 有 可 能 获得 更 低 的 困惑 度 ， 因 为 专业 领域 中 的 词 搭配 更 加 
可 预测 。 
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1. 困惑 度 的 定义 

假设 有 一 些 测试 数据 ，n 个 句子 : 5S1,S2,S3,…,Sn， 计 算 整 个 测试 集 7 的 概率 : 
log > P(s;)= > log P(s;) 

困惑 度 Pemplexiy(O-2*， 这 里 的 z 坟 六 log PCS) ， 环 是 测试 集 了 中 的 总 词 数 。 

2. 困惑 度 的 构想 

假设 有 个 词 表 V， 其 中 有 N 个 词 ， 形 式 化 的 写法 为 N=|1。 模 型 预测 词 表 中 任何 词 
的 概率 都 是 P(w)=(1/N)。 很 容易 计算 这 种 情况 下 的 困惑 度 Permplexity(D)=2*， 这 里 
x=log 广 ， 所 以 Perplexity(D=N。 困 惑 度 是 对 有 效 分 支 系数 的 衡量 。 

例如 ， 训 练 集 有 3800 万 个 词 ， 来 自 华尔街 日 报 (WSJ) ， 词 表 有 19,979 个 词 ， 测 
试 集 有 150 万 个 词 ， 也 来 自 华 尔 街 日 报 ,， 求 得 一 元 模型 的 困惑 度 值 为 962， 二 元 模型 的 
困惑 度 值 为 170， 三 元 模型 的 困惑 度 值 为 109。 


8.1.10 平滑 算法 


语 料 是 有 限 的 ， 不 可 能 覆盖 所 有 的 词汇 。 比 如 说 N 元 模型 ， 当 N 较 大 的 时 候 ， 由 
于 样本 数量 有 限 ， 导 致 很 多 的 先 验 概率 值 都 是 0, 这 就 是 零 概率 问题 。 当 n 值 为 1 的 时 
候 ， 也 存在 零 概率 问题 ， 也 就 是 说 一 元 模型 中 也 存在 零 概率 问题 。 例 如 一 些 词 在 词 表 
中 ， 却 没有 出 现在 语料库 中 ， 这 说 明 语 料 库 太 小 了 ， 没 能 包括 一 些 本 来 可 能 出 现 的 词 
的 句子 。 

做 过 物理 实验 的 都 知道 ， 我 们 一 般 测 量 几 个 点 后 ， 就 可 以 画 出 一 条 大 致 的 曲线 ， 
这 叫 作 回归 分 析 。 利 用 这 条 曲线 ， 可 以 修正 测量 的 一 些 误差 ， 还 可 以 估计 一 些 没 有 测 
量 过 的 值 。 平 滑 算法 用 观测 到 的 事件 来 估计 未 观察 到 事件 的 概率 。 例 如 从 那些 比较 高 
的 概率 值 中 匀 一 些 给 那些 低 的 或 是 0 的 。 为 了 更 合理 的 分 配 概率 ， 可 以 根据 整个 直方 
图 分 布 曲线 去 猜 那 些 为 0 的 实际 值 应 该 是 多 少 。 
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由 于 训练 模型 的 语料库 规模 有 限 且 类 型 不 同 ， 许 多 合理 的 搭配 关系 在 语料库 中 不 


一 定 出 现 ， 因 此 会 造成 模型 出 现 数据 稀疏 现象 。 数 据 稀疏 在 统计 自然 语言 处 理 中 的 一 
个 表现 就 是 零 概率 问题 。 有 各 种 平滑 算法 来 解决 零 概 率 的 问题 。 例 如 ， 我 们 对 自己 能 
做 到 的 事情 比较 了 解 ， 而 不 太 了 解 别 人 是 否 能 做 到 一 些 事情 ， 这 样 导致 高 估 自 己 而 低估 
别人 。 所 以 需要 开发 一 个 模型 减少 已 经 看 到 事件 的 概率 ， 而 允许 没有 看 到 的 事件 发 生 。 


平滑 有 黑 盒 平 滑 方法 和 白 盒 平 滑 方法 两 种 。 黑 盒 平 滑 方法 把 一 个 项 目 作为 不 可 分 


割 的 整体 。 而 白 盒 平滑 方法 把 一 个 项 目 作为 可 分 拆 的 ， 可 用 于 n 元 模型 。 


加 法 平滑 算法 是 最 简单 的 一 种 平滑 算法 。 加 法 平滑 算法 的 原理 是 给 每 个 项 目 增加 


lambda(1>=lambda>=0), 然后 除 以 总 数 作为 项 目 新 的 概率 。 因 为 数学 家 拉 普 拉 斯 (laplace) 
首先 提出 用 加 1 的 方法 估计 没有 出 现 过 的 现象 的 概率 ， 所 以 加 法 平滑 也 叫 作 拉 普 拉 斯 


平滑 。 
以 下 是 加 法 平滑 算法 的 一 个 实现 。 
// 根 据 原 始 的 计数 器 生成 平滑 后 的 分 布 


public static<E> Distribution<E> laplacesmoothedDistribution( 


GenericCounter<E> counter, 
int numberofKeys, 
double lambda) { 
Distribution<E> norm = new Distribution<E>();// 生 成 一 个 新 的 分 布 
norm.counter = new Counter<E>(); 
double total = counter.totalDoubleCount ();// 原 始 的 出 现 次 数 
double newTotal = total + (lambda * (double) numberofKeys) ;// 新 的 出 现 次 数 


// 有 多 大 可 能 性 出 现 零 概率 事件 


double reservedMass = 
((double) numberofKeys - counter.size())* lambda / newTotal; 
norm.numberOfKeys = numberOfKeys; 
norm.reservedMass = reservedMass; 
for (E key : counter.keySet()) { 
double count = counter.getCount (key); 
// 对 于 任何 一 个 词 来 说 ,新 的 出 现 次 数 是 原始 出 现 次 数 加 lambqda 
norm.counter.setCount (key, (count + lambda) / newTotal); 
} 
IE (verbose) { 
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System.err.println("unseenKeys=" + (norm.numberOfKeys - norm.counter. 
size()) + " seenKeys=" + norm.counter.size() + " reservedMass=" + norm.reservedMass); 

System.err-println("0 count prob: " + lambda / newTotal); 
System.err.println("l1 count prob: " + (1.0 + lambda) / newTotal); 
System.err.println("2 count prob: " + (2.0 + lambda) / newTotal); 
System.err.println("3 count prob: " + (3.0 + lambda) / newTotal); 

} 

return norm; 

} 


需要 注意 的 是 ，reservedMass 是 所 有 零 概 率 词 出 现 概率 的 总 和 ， 而 不 是 其 中 某 个 
词 出 现 概 率 的 总 和 。 取 得 指定 key 的 概率 实现 代码 如 下 : 


public double probabilityOf(E key) { 

if (counter.containsKey (key)) { 
return counter.getCount (key); 

} else { 
int remainingKeys = numberOfKeys - counter.size(); 
if (remainingKeys <= 0) { 

return 0.0; 

} else { 


// 如 果 有 零 概率 的 词 ， 
// 则 这 个 词 的 概率 是 reservedMass 分 排 到 每 个 零 概率 词 的 概率 


return (reservedMass / remainingKeys); 


} 

上 述 这 种 方法 中 的 lambda 值 不 好 选取 ， 在 接 下 来 要 讲解 的 另 一 种 平滑 算法 Good- 
Turing 方法 中 则 不 需要 lambda 值 。 为 了 讲解 Good-Turing 方法 ， 首 先 假设 词典 中 共有 
x 个 词 ， 在 语料库 中 出 现 r 次 的 词 有 和 Wi 个 。 例 如 ， 出 现 一 次 的 词 有 Ni 个 ， 则 语料库 中 
的 总 词 数 N=0xNot1xNitrxNit…， 而 x=NotNitNit…。 然 后， 使 用 观察 到 的 类 别 r+1 
的 全 部 概率 去 估计 类 别 r 的 全 部 概率 。 计 算 中 的 第 一 步 是 估计 语料库 中 没有 出 现 过 的 
词 的 总 概率 po = Ni / N， 分 摊 到 每 个 词 的 概率 为 Wi / (N。No)。 第 二 步 是 估计 语料库 中 
出 现 过 一 次 的 词 的 总 概率 pi = 2N; /NN, 分 摊 到 每 个 词 的 概率 为 2Nz/ (N "NbD。 依次 类 推 ， 
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当 r 值 比较 大 时 ，N: 可 能 为 0， 这 时 不 再 求 平滑 。 词 的 概率 图 如 图 8-5 所 示 。 
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的 
出 
现 
概 
率 
0 0.005 0.01 0.015 0.02 0.025 
某 类 词 总 的 出 现 概率 


图 8-5 词 的 概率 图 


Good-Turing 平滑 算法 实现 代码 如 下 : 
public static <E> Distribution<E> goodTuringSmoothedCounter( 
GenericCounter<E> counter, 
int numberOfKeys) { 
// 收 集 计 数 数组 , 也 就 是 直方 图 
int[] countCounts = getCountCounts (counter); 
// 如 果 计数 数组 不 可 靠 , 就 不 要 用 Good-Turing 方法 
// 而 采用 拉 普 拉 斯 平滑 方法 
for (int i = 1; i <= 10; i++) { 
if (countCounts[i] < 3) { 
return laplacesmoothedDistribution (counter, numberOfKeys, 0.5); 
} 
} 
double observedMass = counter.totalDoubleCount (); 
double reservedMass = countCounts [1] / observedMass; 


// 计 算 和 缓存 调整 后 的 频率 , 同时 也 调整 观察 到 的 项 目 总 数 
double[] adjustedFreq = new double[10]; 
for (int freq = 1; freq < 10; freq++) { 
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adjustedFreq[freq] = (double) (freq + 1) * (double) countCounts [freq + 1] / 
(double) countCcounts [freq] 

observedMass -= ((double) freq - adjustedFreq[freq]) * countCounts [freq] ; 
} 
double normFactor = (1.0 - reservedMass) / observedMass; 
Distribution<E> norm = new Distribution<E>(); 
norm.counter = new Counter<E>(); 
// 填 充 新 的 分 布 ,同时 重新 归 一 化 
for (E key : counter.keySet()) { 

int origFreq = (int) Math.round (counter.getCount (key)); 

if (origFreq < 10) { 

norm.counter.setCount (key, adjustedFreq[origFreq] * normFactor); 


} else { 
norm.counter.setCount (key, (double) origFreq * normFactor); 


} 
norm.numberOfKeys numberOfKeys; 
norm.reservedMass = reservedMass; 


return norm; 


} 
对 条 件 概率 的 六 元 估计 平滑 : 


这 里 的 c* 来 源 于 GT 估计 ， 也 就 是 Good-Turing 估计 。 
估计 三 元 条 件 概率 : 


Cc*(W,wW,,wW,) 
Krys |) = 一 一 一 一 2 


2 (Wy) 
对 于 一 个 没 出 现 过 的 ， 三 元 联合 概率 为 : 
> N 
RG, 雹 , 巩 )= 凶 = N, a 


对 于 一 元 和 二 元 模型 ， 也 是 如 此 。N 元 分 词 中 ， 没 有 在 词 表 中 出 现 的 单字 都 要 根据 
GT 估计 给 一 个 概率 。 
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8.2 ”KenLM 语言 模型 工具 包 


在 Linux 操作 系统 下 安装 : 


Bip install https://githup.com/kpu/kenlm/archive/master.zip 
下 载 测试 语言 模型 文件 : 


测试 语言 模型 文件 test.arpa 的 内 容 如 下 : 
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为 了 使 用 test.arpa 评估 句子 的 概率 ， 可 以 在 kenlm 目录 下 执行 如 下 命令 。 


输出 结果 : 
可 以 由 C++ 源 代 码 编译 出 KenLM 可 执行 文件 。 如 果 只 想 要 编译 出 查询 代码 , 可 以 
执行 如 下 命令 。 


为 了 编译 全 部 的 代码 ， 需 要 先 安装 Boost 库 等 软件 。 
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libbz2-dev liblzma-dev 


成 功 安装 Boost 等 软件 后 ， 就 可 以 编译 KenLM。 

$mkdir -p build 

$cd build 

$cmake .. 

$make -]j 4 

使 用 修改 的 Kneser-Ney 平滑 法 从 输入 文本 text.arpa 估计 语言 模型 。 
$bin/lmplz -o 5 <text >text.arpa 

创建 一 个 三 元 模型 ， 执 行 如 下 命令 。 


./lmplz --order 3 --text input.txt.tok --arpa output.arpa 


8.3 ARPA 文件 格式 


统计 语言 模型 描述 了 文本 的 概率 ， 它 们 是 在 大 型 文本 数据 集 上 训练 得 到 的 。 可 以 
以 各 种 文本 和 二 进 制 格式 存储 统计 语言 模型 ， 但 语言 建 模 工具 包 支 持 的 通用 格式 是 称 
为 ARPA 格式 的 文本 格式 。 此 格式 非常 适合 包 之 间 的 互 操作 性 。ARPA 格式 不 如 二 进 
制 格式 有 效 ， 因 此 对 于 生产 而 言 ， 最 好 将 ARPA 格式 转换 为 二 进 制 格式 。 
用 于 存储 n-gram 回 退 语 言 模型 的 格式 定义 如 下 : 
<LM_definition> = [ { <comment> } ] 
\data\ 
<header> 
<body> 
\end\ 
<comment> = { <word> } 


ARPA 样式 的 语言 模型 文件 分 为 两 个 部 分 一 一 头 部 和 n-gram 定义 。 
头 部 包含 文件 内 容 的 描述 如 下 : 
<header> = { ngram <int>=<int> } 


上 述 命令 中 , 第 一 个 <int> 给 出 n-gram 阶 数 ， 第 二 个 <int> 给 出 n-gram 条 目的 数量 。 
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例如 ，bigram 语言 模型 由 unigram 和 bigram 两 个 部 分 组 成 。 头 部 中 的 相应 条 目 表 
示 该 部 分 的 条 目 数 , 条 目 数 可 用 于 辅助 装 入 程序 。 正 文部 分 包含 语言 模型 的 所 有 部 分 ， 
定义 如 下 : 


<body> = { <lmpartl> } <lmpart2> 
<lmpart1l> = \<int>-grams: 
{ <ngramdefl> } 
<lmpart2> = \<int>-grams: 
{ <ngramdef2> } 
<ngramdef1> = <float> { <word> } <float> 
<ngramdef2> = <float> { <word> } 


考虑 文本 : 


wood pittsburgh cindy jean 
jean wood 


在 上 述 文本 中 ， 有 pittsburgh, cindy, wood, jean 4 个 单词 。 词 汇 量 大 小 实际 上 是 7 
个 单词 , 其 他 3 个 单词 是 句子 开始 ,句子 结尾 和 未 知 单词 ,这些 在 KenLM 中 分 别 用 <s>、 
</s> 和 <unk> 表 示 。 这 些 符号 有 助 于 更 一 致 地 处 理 文本 。 你 可 以 总 是 用 <s> 开 始 一 个 名 
子 并 进一步 扩展 它 。 

一 个 语言 模型 可 能 是 一 个 单词 序列 的 列表 ， 列 表 中 的 每 个 序列 都 有 标记 在 它 上 面 
的 统计 估计 语言 概率 。 单 词 序列 可 能 有 、 也 可 能 没有 与 其 相关 的 “ 回 退 权重 ”。 在 和 N 
元 语言 模型 中 ， 所 有 N-1 元 单词 序列 通常 有 与 它们 相关 的 回 退 权重 。 如 果 某 个 特定 的 
N-gram 未 列 出 ， 则 可 以 从 语言 模型 计算 其 概率 。 

P( word N | word_{N-1}, word {N-2},…, word 1 )= 
P( word N | word_{N-1}, word {N-2},…, word 2 ) x backoff-weight( word_{N-1}| 
word_{N-2},…, word 1) 

如 果 序 列 “word。”{N-1},word。”{N-2},…,word_1” 也 未 列 出 ， 那 么 术语 回 退 权重 
“word {N-1} | word {N-2},…,word_1” 用 1.0 替换 ， 递 归 继 续 如 此 。 

以 下 是 用 2-gram 语言 模型 和 词汇 构建 的 随机 例子 , 是 标准 ARPA 格式 语言 模型 的 
示例 。 格 式 如 下 : 
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P(gram 序 列 ) 序列 BP(Ngram 认 到 ) 
与 下 面 例子 中 的 unigrams 和 bigrams 相关 的 数字 是 实际 概率 。 因 此 ， 如 果 没 有 看 
到 序列 “wood pittsburgh”， 可 以 通过 如 下 公式 来 获得 它 的 概率 。 
P(pittsburghlwood)=P(pittsburgh) * BWiA(wood) 
实际 概率 由 其 对 数 蔡 换 。 通 常 ， 对 数 底数 为 10。 因 此 ， 你 将 看 到 的 是 负数 ， 而 不 
是 0 和 1 之 间 的 数字 。 
语言 模型 如 下 : 


ARPA 模型 可 以 包括 三 元 ， 甚 至 多 元 。 七 元 和 十 元 是 罕见 的 ， 但 仍然 有 人 使 用 。 
使 用 gzip 可 以 压缩 ARPA 模型 以 节省 空间 。 
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8.4 ”依存 语言 模型 


使 用 依存 语言 模型 可 以 创建 单词 之 间 的 句法 依赖 关系 模型 。 下 面 讲解 使 用 依存 文 
法 构建 依存 语言 模型 。 

依存 文法 认为 ， 词 之 间 的 关系 是 有 方向 的 ， 通 常 是 一 个 词 支配 另 一 个 词 ， 这 种 支 
配 与 被 支配 的 关系 就 称 为 依存 关系 。 包 括 汉语 和 英语 的 大 多 数 语言 均 满足 投射 性 。 所 
谓 投 射 性 ， 是 指 如 果 词 p 依存 于 词 g， 那 么 p 和 g 之 间 的 任意 词 + 就 不 能 依存 到 p 和 g 
所 构成 的 跨度 之 外 。 汉 语句 子 “ 这 是 一 本 书 。” 的 依存 文法 结构 如 图 8-6 所 示 。 


S 
obj 


bi 
SUD] Si 


CY EHD 


图 8-6 “这 是 一 本 书 。” 的 依存 文法 结构 


图 8-6 中 带 箭头 弧 的 起 点 为 从 属 词 ， 箭 头 指向 的 为 支配 词 ， 弧 上 标记 为 依存 关系 
标记 。 例 如 ， 句 号“。” 支 配 “ 是 ”， 动 词 “ 是 ”为 句子 的 谓语 ， 它 支配 主语 “这 ” 
和 宾语 “ 书 ”， 则 “是 ”为 支配 词 ，“ 这 ”和 “ 书 ” 为 从 属 词 ,，“s” “subj” “obj” 
为 依存 关系 标记 。 支 配 词 也 称 为 核心 词 ， 从 属 词 也 称 为 修饰 词 。 

再 如 ， 数 词 “ 一 ” 作 量 词 “ 本 ”的 量词 补足 语 , “本 ”为 支配 词 ,“ 一 ”为 从 属 词 ， 
“qc” 为 依存 关系 标记 。 数 量 短语 “一 本 ” 作 名 词 “ 书 ”的 定语 ， 名 词 “ 书 ”支配 量词 
“本 ”, “atr” 为 依存 关系 标记 。 

依存 文法 也 可 以 表示 成 图 8-7 这 样 的 树 形 结构 。 因 为 总 是 连接 线 下 面 的 词 依赖 上 
面 的 词 ， 所 以 图 8-7 中 的 箭头 可 以 省 略 。 
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图 8-7 “这 是 一 本 书 。” 的 依存 文法 树 


在 依存 语言 模型 中 利用 依存 树 有 很 多 可 能 的 方法 。 构 造 依 存 语言 模型 的 最 简单 方 
法 是 使 用 依存 树 的 拓扑 结构 7。 每 个 单词 都 由 其 父 结 点 调节 。 图 8-8 中 句子 的 概率 计算 
公式 如 下 : 
P(s|T)=P(the|boy)P (boy |find) P(willl find )P (find| <NONE> )P (it|find) 
P (interesting |find) 


图 8-8 句子 “the boy will find it interesting” 的 依存 树 
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术语 及 含义 
术 语 澡 
i 全 称 为 Large Vocabulary Continuous Speech Recognition， 大 词 表 
连续 语音 识别 
Automatic speech recognition 自动 语音 识别 
Endpoint Detection 端点 检测 
Phone 音素 
Probability Density Function 概率 密度 函数 
Speech Synthesis 语音 合成 


Subspace Gaussian Mixture Model 子 空间 高 斯 混合 模型 


半 环 在 抽象 代数 中 ， 半 环 是 与 环 相似 的 代数 结构 ， 但 不 要 求 每 个 


元 素 必须 具有 加 法 可 逆 
Triphone 三 音素 
Acoustic Model 声学 模型 
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